ChatGPT是怎样练成的？

最新推荐文章于 2024-10-30 14:41:43 发布

程序猿李巡天

最新推荐文章于 2024-10-30 14:41:43 发布

阅读量696

点赞数 28

文章标签：人工智能大数据 chatgpt oracle jvm AI大模型深度学习

本文链接：https://blog.csdn.net/m0_59235945/article/details/139842161

版权

曹冲称象的故事想必大家都知道，那么还记得给大象称重需要几步？

没错，只需要三步：

1、把大象牵上船，在船舷齐着水面的地方画一个记号。

2、船上装石头，一直装到记号处为止。

3、然后称一称船上的石头有多重，就知道大象有多重。

那如果训练一个ChatGPT需要几步？

没错，也只需要三步：

1、通过大量大量的文本进行无监督学习与训练，得到一个能进行文本生成的基座模型。

2、通过一些人类编写的高质量对话数据对基座模型进行监督微调，得到一个微调后的模型。此时的模型除了续写文本之外，也会具备更好的对话能力。

3、用问题和多个对应回答的数据，让人类标注人对回答进行质量排序，然后基于这些数据训练出一个能对回答进行评分预测的奖励模型。

接下来，让第二步得到的模型对问题进行回答。用奖励模型给回答进行评分，利用评分作为反馈进行强化学习训练，就这样，ChatGPT就被练成了。

如果想了解更详细的步骤，那咱们接着往下看。

在第一步，首先需要海量文本作为原料，让模型从中学习。比如GPT3这个基座模型的训练数据有多个互联网文本语料库，覆盖书籍、新闻文章、科学论文、维基百科、社交媒体等等，训练数据的整体规模是三千亿Token。如果你不知道这什么是Token的话，这里简单描述一下，它一般指的是大语言模型的一个基本文本单位，如下图：短的英文单词可能一个词是一个Token，而长的词可能被分为多个Token；如果是中文的话，可能一个字要一个Token也可能需要更多Token表示。

回到我们的主题，有了大量可用于训练的文本后，要采用无监督学习的方式训练模型。无监督学习是让模型在没有标签的数据上进行训练，所以模型要自己找出数据中的结构和模式。以GPT-3为例，训练时会利用海量文本自行学习人类的语义、语法，了解表达的结果和模式。具体来说，模型会先看到一部分文本，基于上下文尝试预测下一个Token，然后通过比较正确答案和他的预测，模型会更新权重，从而逐渐能根据上文来生成合理的下文，并且随着见过的文本越来越多。它生成的能力也会越来越好。这一步并不容易，是最耗时、最烧钱的。基座模型不等同于ChatGPT的对话模型，它会根据上文补充文本，但并不擅长对话，你给它一个问题，它可能模仿上文，帮你继续生成更多的问题，但不回答你的问题，因此需要下面这一步。

第二步，对基础模型进行微调。微调就是在已有模型上做进一步的训练，改变模型的内部参数，让模型更加适应特定任务。也就是说，为了训练出一个擅长对话的AI助手，需要给基错模型看更多的对话数据。但微调的成本相比预训练低很多，因为需要的训练数据规模更小，训练时长更短。在这个阶段里，模型不需要从海量文本学习，而是从一些人类写的专业且高质量的对话里学习。这相当于既给了模型问题，也给了模型我们人类想听到的回答，属于监督学习，也叫做监督微调（Supervised Fine-Tuning，SFT）它比第一步里的模型更加擅长对问题做出回答。但为了让模型的实力继续被提升，还可以进行第三步，让SFT模型进行强化学习。

第三步，给SFT模型进行强化学习。强化学习是让模型在环境里采取行动，获得结果反馈，从反馈里再学习，从而能在给定情况下采取最佳行动来最大化奖励或最小化损失，具体步骤如下：让ChatGPT对问题做出回答，用奖励模型为回答打分，经过多轮迭代后模型就会不断优化策略回答的质量就会提升，这样一个强大的模型就练成了，你学会了吗？

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述