大模型开山鼻祖之InstructGPT

最新推荐文章于 2025-01-27 15:42:56 发布

walker.wu

最新推荐文章于 2025-01-27 15:42:56 发布

阅读量650

点赞数 11

分类专栏：大模型文章标签：人工智能 chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012966380/article/details/140518241

版权

大模型专栏收录该内容

3 篇文章

订阅专栏

OpenAI发布chatgpt之后，举世震惊，但是在这之前NLP领域几乎是走入了一条死胡同，看不到前景和未来。随着chatgpt发布，改变了这一情况，但是chatgpt并没有开源，所以大家对于技术细节也是停留在猜测的阶段，大家认为openai之前发表的一篇名为InstructGPT（Training language models to follow instructions with human feedback）的论文和chatgpt的结构最为接近。

InstructGPT 开创了一个经典的模型训练方法:先进行预训练，然后是监督式微调，最后是基于强化学习的人类反馈（Reinforcement Learning from Human Feedback， RLHF）训练模型。在最近两年，大家都在寻找替代RLHF的训练方式（DPO等），虽然在论文中一直在极力的证明的DPO的有效性，但是实际应用中效果并不明显。可以说至今还没有一个特别有效的方式替代RLHF的训练方式。

下面详细介绍一下InstructGPT的训练过程

请添加图片描述

InstructGPT三部曲：（1）有监督微调（SFT）；（2）奖励模型（RM）训练；（3）通过PPO根据奖励模型进行强化学习。其中（2）（3）可以反复迭代

详细拆解一下三部曲以及这三部每一部分需要的训练数据集：

SFT：
在这一部分中，通过有监督的方式进行微调。训练模型模仿人的响应，即给定一个提示（prompt），模型应该生成与人类回答相似的响应

训练数据结构：有两个部分，一个部分是问题或者提示词集合（prompt），另一部分是针对每个问题或者提示人类高质量的回答
RM模型：有监督微调完成后，需要训练一个奖励模型。一个模型用于评估文本生成的质量，并且指导模型在后续的强化学习中进行优化。

训练数据结构：这部分的数据集需要成对出现，也需要有两个部分，一个部分是问题或者提示词集合（prompt）另外一个部分是成对的文本，这些文本是被标注人员按照文本质量进行了排名
强化学习：在这一阶段，通过强化学习进一步优化，以最大化奖励模型给出的得分。

训练数据结构：在这一步中，不需要额外的数据集，而是使用奖励模型作为环境的一部分，来动态地评价模型的输出，并据此更新模型参数。

以上介绍了InstructGPT的大体结构和每一步步骤的训练数据集的构建方式。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。