ChatGPT的前世今生

最新推荐文章于 2024-08-14 22:29:49 发布

此去会经年

最新推荐文章于 2024-08-14 22:29:49 发布

阅读量121

点赞数

分类专栏：大语言模型人工智能文章标签： chatgpt 语言模型人工智能

本文链接：https://blog.csdn.net/dick2737/article/details/131458130

版权

大语言模型同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

人工智能

1 篇文章 0 订阅

订阅专栏

文章详细介绍了GPT从1到3.5的演化过程，包括预训练和微调方法，模型结构改进，如Transformer的使用和优化，以及训练数据的变化。GPT系列模型在不断提升zero-shot和few-shot学习能力，尤其是GPT-3展示了大模型在处理复杂任务上的潜力，并且GPT-3.5通过结合人类反馈进一步提高了与人类意图的对齐程度。

摘要由CSDN通过智能技术生成

一、GPT进化过程

图1：GPT的进化过程（图来自：https://zhuanlan.zhihu.com/p/609716668）

二、模型结构演变

（一）GPT-1: Improving Language Understanding by Generative Pre-Training

GPT-1的核心思想是无监督的预训练和有监督的微调。

图2：GPT-1的构架（图来自原文）

1.无监督的预训练

对于一个句子中的词，在语言模型中，它被选中的概率是根据它前面k个词来计算的。

在具体实现中，GPT-1用了一个多层Transformer 解码器：

注意，上面的U是由k个词的embedding和位置编码构成的。用训练数据中的句子或者一段话中的词作为目标来做生成任务，从而得到一个无监督的预训练模型。

2. 有监督的微调

GPT-1根据下游任务的不同，在预训练模型的基础上进行有监督的微调。需要微调的参数只有一个。

具体任务微调的优化目标如下（其中引入参数λ和预训练的优化目标是借鉴的之前的工作）：

（二）GPT-2: Language Models are Unsupervised Multitask Learners

图3：GPT-2提供的不同模型的参数（图来自论文）

GPT-2结构主体上与GPT-1一致，但是做了以下调整：

每一个sub-block的归一化层从后面移到了前面，在最后一个block后面加了一个归一化层。
GPT-2模型深度的深度进一步增加，为了防止梯度爆炸和消失，对每一个残差层的初始化参数按照进行了缩放，N是残差层的个数。
输入序列的长度从512变成了1024，batch_size变成了512。
GPT-3: Language Models are Few-Shot Learners GPT-3沿用了GPT-2的结构，但也做了一处调整：将transformer换成了sparse transformer [1]。为了研究模型大小与性能的关系，GPT-3共测试了8个不同大小模型的性能，具体参数如下：

图4：GPT-3中不同模型的参数（图来自论文）

（三）GPT-3.5 (InstructGPT):Training language models to follow instructions with human feedback

语言模型的结构与GPT-3相比没有变化。

三、主要技术

GPT-1：预训练，微调
GPT-2: 从互联网收集的更具多样性的数据，可以处理任意输入的representation（[2] Byte pair encoding, Sennrich et al., 2015）。
GPT-2希望让模型看到各种各样的数据后，具备zero-shot的能力，即具有很强的迁移能力，可以处理未见过的任务。 GPT-3：力大砖飞：大参数模型（175 billion）。
GPT-3.5 (InstructGPT)：有监督微调（supervised fine-tuning, SFT）+人类反馈的强化学习（reinforcement learning from human feedback, RLHF）。

四、训练数据

GPT-1：预训练：BooksCorpus dataset [3] 微调：

对应引用请移步原文查看

GPT-2 WebText：从Reddit爬取的2017年以前的链接（45 million links）,再从这些链接获取文字。维基百科的数据被去除掉，以免跟测试集中数据产生重复。最终得到了40GB的文字数据。
GPT-3

GPT-3.5 prompt dataset：一开始让请的40个标签人员写，然后提供一个初始版本给用户使用，从用户那里收集prompt。

五、总结

GPT-1

a. GPT-1证明了随着模型解码器层数的增加，模型的性能会进一步提升。即，一个比较深的模型性能会比较好。

b. GPT-1证明了随着预训练的进行，模型的zero-shot能力会不断增强。

GPT-2

GPT-2证明了大模型加上多样化的训练数据可以使得模型具有很强的zero-shot能力。

GPT-3

展现出了强大的few-shot能力

能力的线性提升需要模型的规模指数级的提升

GPT-3.5

更好的与人类意图对齐。

References

Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers, 2019.
Sennrich, R., Haddow, B., and Birch, A. Neural machine trans- lation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.
Y. Zhu, R. Kiros, R. Zemel, R. Salakhutdinov, R. Urtasun, A. Torralba, and S. Fidler. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. In Proceedings of the IEEE international conference on computer vision, pages 19–27, 2015.