ChatGPT的前世今生

文章详细介绍了GPT从1到3.5的演化过程,包括预训练和微调方法,模型结构改进,如Transformer的使用和优化,以及训练数据的变化。GPT系列模型在不断提升zero-shot和few-shot学习能力,尤其是GPT-3展示了大模型在处理复杂任务上的潜力,并且GPT-3.5通过结合人类反馈进一步提高了与人类意图的对齐程度。
摘要由CSDN通过智能技术生成

一、GPT进化过程

图1:GPT的进化过程(图来自:https://zhuanlan.zhihu.com/p/609716668)

二、模型结构演变

(一)GPT-1: Improving Language Understanding by Generative Pre-Training

GPT-1的核心思想是无监督的预训练和有监督的微调。

图2:GPT-1的构架(图来自原文)

1.无监督的预训练

  对于一个句子中的词,在语言模型中,它被选中的概率是根据它前面k个词来计算的。

  在具体实现中,GPT-1用了一个多层Transformer 解码器:

  注意,上面的U是由k个词的embedding和位置编码构成的。用训练数据中的句子或者一段话中的词作为目标来做生成任务,从而得到一个无监督的预训练模型。

2. 有监督的微调

  GPT-1根据下游任务的不同,在预训练模型的基础上进行有监督的微调。需要微调的参数只有一个。

  具体任务微调的优化目标如下(其中引入参数λ和预训练的优化目标是借鉴的之前的工作):

​(二)GPT-2: Language Models are Unsupervised Multitask Learners

图3:GPT-2提供的不同模型的参数(图来自论文)

GPT-2结构主体上与GPT-1一致,但是做了以下调整:

  1. 每一个sub-block的归一化层从后面移到了前面,在最后一个block后面加了一个归一化层。

  2. GPT-2模型深度的深度进一步增加,为了防止梯度爆炸和消失,对每一个残差层的初始化参数按照进行了缩放,N是残差层的个数。

  3. 输入序列的长度从512变成了1024,batch_size变成了512。

  4. GPT-3: Language Models are Few-Shot Learners GPT-3沿用了GPT-2的结构,但也做了一处调整:将transformer换成了sparse transformer [1]。 为了研究模型大小与性能的关系,GPT-3共测试了8个不同大小模型的性能,具体参数如下:

图4:GPT-3中不同模型的参数(图来自论文)

(三)GPT-3.5 (InstructGPT):Training language models to follow instructions with human feedback

  语言模型的结构与GPT-3相比没有变化。

三、主要技术

  • GPT-1:预训练,微调
  • GPT-2: 从互联网收集的更具多样性的数据,可以处理任意输入的representation([2] Byte pair encoding, Sennrich et al., 2015)。
  • GPT-2希望让模型看到各种各样的数据后,具备zero-shot的能力,即具有很强的迁移能力,可以处理未见过的任务。 GPT-3:力大砖飞:大参数模型(175 billion)。
  • GPT-3.5 (InstructGPT):有监督微调(supervised fine-tuning, SFT)+人类反馈的强化学习(reinforcement learning from human feedback, RLHF)。

四、训练数据

  • GPT-1: 预训练:BooksCorpus dataset [3] 微调:

​对应引用请移步原文查看

  • GPT-2 WebText:从Reddit爬取的2017年以前的链接(45 million links),再从这些链接获取文字。维基百科的数据被去除掉,以免跟测试集中数据产生重复。最终得到了40GB的文字数据。

  • GPT-3

  • GPT-3.5 prompt dataset:一开始让请的40个标签人员写,然后提供一个初始版本给用户使用,从用户那里收集prompt。

​五、总结

  • GPT-1

a. GPT-1证明了随着模型解码器层数的增加,模型的性能会进一步提升。即,一个比较深的模型性能会比较好。

b. GPT-1证明了随着预训练的进行,模型的zero-shot能力会不断增强。

  • ​GPT-2

  GPT-2证明了大模型加上多样化的训练数据可以使得模型具有很强的zero-shot能力。

  • GPT-3

​展现出了强大的few-shot能力

能力的线性提升需要模型的规模指数级的提升

  • GPT-3.5

  更好的与人类意图对齐。

References

  1. Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers, 2019.

  2. Sennrich, R., Haddow, B., and Birch, A. Neural machine trans- lation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.

  3. Y. Zhu, R. Kiros, R. Zemel, R. Salakhutdinov, R. Urtasun, A. Torralba, and S. Fidler. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. In Proceedings of the IEEE international conference on computer vision, pages 19–27, 2015.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值