State of ChatGPT ---- ChatGPT的技术综述

香蕉也是布拉拉

于 2024-10-06 23:31:50 发布

阅读量516

点赞数 12

分类专栏： neural network 文章标签： chatgpt 人工智能

本文链接：https://blog.csdn.net/m0_62716099/article/details/142732224

版权

neural network 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

声明：该文总结自AI菩萨Andrej Karpathy在youtube发布的演讲视频。

原视频连接：State of GPT | BRK216HFS

基础知识：

Transformer原文带读与代码实现https://blog.csdn.net/m0_62716099/article/details/141289541?spm=1001.2014.3001.5501

How to train your (Chat)GPT Assistant?

四个主要阶段：预训练（Pretraining）、监督微调（Supervised Finetuning）、奖励建模（Reward Modeling）、强化学习（Reinforcement Learning）。.

四个阶段按照先后顺序进行。Pretraining是99%的计算发生的地方，可能花费数月的时间进行训练；其余三个阶段都属于Finetuning，花费的算力与时间都较小。

Pretraining

在训练之前，我们首先需要获取训练所需要的数据。混合多种来源的数据（已有数据集、Github、维基百科...）按照一定的算法进行采样等数据处理，形成了GPT的数据集。

在训练之前，还有一个重要的步骤，即为Tokenization（词元化），目的在于将所有的文本变换成整数的列表。词元的划分方式有所不同，GPT采用的是一种subword的方式。

在Pretraining阶段，我们一般会发生哪些步骤呢？

这里其实考验的就是Transformer的知识点了。因为之前已经讲过，我在这里就不赘述。如果不了解的同学可以去看一下我之前发的博客，里面也给了一些老师的视频链接。这是基础。

那么我们就是在Transformer的基础上训练一个模型。将我们（B，T）的词元输入到Transformer中并进行训练。如图所示 B=4， T=10。当然实际的长度会长的多。

总而言之，模型的输入是一长串的上下文数字序列，输出的是预测的下一个token。并行训练计算并不断地调整权重。

Supervised Finetuning

在经过漫长的预训练过程后，我们得到了一个强大的，能够进行广泛表达的模型。接下来我们就需要通过一些有监督的小型数据集进行微调，以至于让大模型能够更好的帮助进行下游任务。（GPT1）

预训练模型能够通过提示完成任务。例如在这个例子中，我们存在一些段落，然后提供一些QA，QA，QA，这就也被称为Few-show prompt，然后我们完成Q，GPT在补充文档的过程中帮助我们回答了A的答案。这就是基于模型的提示工程的示例。

然后，Karpathy说了，目前最好用的Base Model 可能是Leta的LLaMA系列，虽然其参数量不大，但是其训练的数据更好。有更多的词元。

但是，总而言之，Base models不是真正意义上的助手，其只是帮助我们预测下一个Token是什么，并完成它目前认为的文档。

因此我们进入了Supervised Finetuning阶段，在这个阶段，我们需要获取的是少量但是高质量的数据集（Prompt，Response...）。我们依然要进行语言建模并进行训练，得到一个SFT模型。这样我们就得到了真正的助手，并且在某种程度上可以发挥作用。

Reward Modeling && Reinforcement learning

微调过后，我们就可以进入基于人类反馈的强化学习（reinforcement learning from human feedback）了。其包括Reward modeling && reinforcement learning。

在reward modeling过程中，我们需要把数据收集转换成比较的形式。

在训练的过程中，我们的数据集大概是如上的样式，我们生成了3段一摸一样的的提示词，然后利用Fine tuning中训练的SFT模型生成结果。生成结果后，我们通过人工的判断进行打分。这样我们就得到了自己的数据集。

我们把提示词和生成的回答以及打分都进行词元化，并将reward作为预测的结果进行训练。这样我们就可以让模型自己判断生成结果的好坏，并要求输出的结果必须远高于其他的结果。

但是在完成了奖励模型后，可能是由于在实际应用中发现奖励模型的效果欠佳，所以人们逐渐探索出强化学习的道路，并发现奖励模型在强化模型中应用效果非常好。因此逐渐对奖励模型进行强化学习。

这里不得不提一嘴，关于Finetuning后面的部分，我个人其实也不是很了解技术层面。因此若有问题，还是欢迎大家提出批评：）

接下来我们就利用奖励模型得到的评分，进行强化学习。具体思路大概如下：评分越高，我生成completion中的token概率就会越高，反而就会越低。这样能够提升我们生成高质量回答的概率。

最后我们就可以获得一个可以部署的模型（RHLF模型）。当然市面上目前有的大多数模型是Base Model， SFT Model 与 RHLF Model。

RHLF对于专业知识的效果更好，但是会失去一些熵，这就意味着，base model的生成多样性可能是更好的。

Applications

人们在应用的过程中发现，尤其是有关于需要推理的问题，模型很少能够完成复杂的问题。这并不是模型能力不够，而是复杂的推理过程可能无法在一个token中展现出来。因此用户们尝试着让模型对任务步骤进行分解，分成多个阶段进行处理，这样可以大大提升处理任务的成功率。这种方法也被称为chain of thought。