一、GPT进化过程
图1:GPT的进化过程(图来自:https://zhuanlan.zhihu.com/p/609716668)
二、模型结构演变
(一)GPT-1: Improving Language Understanding by Generative Pre-Training
GPT-1的核心思想是无监督的预训练和有监督的微调。
图2:GPT-1的构架(图来自原文)
1.无监督的预训练
对于一个句子中的词,在语言模型中,它被选中的概率是根据它前面k个词来计算的。
在具体实现中,GPT-1用了一个多层Transformer 解码器:
注意,上面的U是由k个词的embedding和位置编码构成的。用训练数据中的句子或者一段话中的词作为目标来做生成任务,从而得到一个无监督的预训练模型。
2. 有监督的微调
GPT-1根据下游任务的不同,在预训练模型的基础上进行有监督的微调。需要微调的参数只有一个。
具体任务微调的优化目标如下(其中引入参数λ和预训练的优化目标是借鉴的之前的工作):
(二)GPT-2: Language Models are Unsupervised Multitask Learners
图3:GPT-2提供的不同模型的参数(图来自论文)
GPT-2结构主体上与GPT-1一致,但是做了以下调整:
-
每一个sub-block的归一化层从后面移到了前面,在最后一个block后面加了一个归一化层。
-
GPT-2模型深度的深度进一步增加,为了防止梯度爆炸和消失,对每一个残差层的初始化参数按照进行了缩放,N是残差层的个数。
-
输入序列的长度从512变成了1024,batch_size变成了512。
-
GPT-3: Language Models are Few-Shot Learners GPT-3沿用了GPT-2的结构,但也做了一处调整:将transformer换成了sparse transformer [1]。 为了研究模型大小与性能的关系,GPT-3共测试了8个不同大小模型的性能,具体参数如下:
图4:GPT-3中不同模型的参数(图来自论文)
(三)GPT-3.5 (InstructGPT):Training language models to follow instructions with human feedback
语言模型的结构与GPT-3相比没有变化。
三、主要技术
- GPT-1:预训练,微调
- GPT-2: 从互联网收集的更具多样性的数据,可以处理任意输入的representation([2] Byte pair encoding, Sennrich et al., 2015)。
- GPT-2希望让模型看到各种各样的数据后,具备zero-shot的能力,即具有很强的迁移能力,可以处理未见过的任务。 GPT-3:力大砖飞:大参数模型(175 billion)。
- GPT-3.5 (InstructGPT):有监督微调(supervised fine-tuning, SFT)+人类反馈的强化学习(reinforcement learning from human feedback, RLHF)。
四、训练数据
-
GPT-1: 预训练:BooksCorpus dataset [3] 微调:
对应引用请移步原文查看
-
GPT-2 WebText:从Reddit爬取的2017年以前的链接(45 million links),再从这些链接获取文字。维基百科的数据被去除掉,以免跟测试集中数据产生重复。最终得到了40GB的文字数据。
-
GPT-3
-
GPT-3.5 prompt dataset:一开始让请的40个标签人员写,然后提供一个初始版本给用户使用,从用户那里收集prompt。
五、总结
- GPT-1
a. GPT-1证明了随着模型解码器层数的增加,模型的性能会进一步提升。即,一个比较深的模型性能会比较好。
b. GPT-1证明了随着预训练的进行,模型的zero-shot能力会不断增强。
- GPT-2
GPT-2证明了大模型加上多样化的训练数据可以使得模型具有很强的zero-shot能力。
-
GPT-3
展现出了强大的few-shot能力
能力的线性提升需要模型的规模指数级的提升
-
GPT-3.5
更好的与人类意图对齐。
References
-
Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers, 2019.
-
Sennrich, R., Haddow, B., and Birch, A. Neural machine trans- lation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.
-
Y. Zhu, R. Kiros, R. Zemel, R. Salakhutdinov, R. Urtasun, A. Torralba, and S. Fidler. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. In Proceedings of the IEEE international conference on computer vision, pages 19–27, 2015.