ChatGPT 中的人类反馈强化学习 (RLHF) 实战，看这篇就够了

community_301

已于 2023-05-31 15:29:43 修改

阅读量228

点赞数

分类专栏：博客质量分测试文章标签： chatgpt 人工智能深度学习

于 2023-05-29 17:12:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/community_301/article/details/130932513

版权

本文介绍了ChatGPT中的人类反馈强化学习（RLHF）实战，涵盖奖励模型的训练和PPO算法的应用。通过与人类交互并根据反馈优化回答质量，RLHF提升了ChatGPT的性能。奖励模型基于SFT Model的回复打分，而PPO算法通过策略和价值网络更新策略，确保模型输出连贯的文本。

摘要由CSDN通过智能技术生成

团队博客: CSDN AI小组

相关阅读

ChatGPT 简介
大语言模型浅探一
关于 ChatGPT 必看的 10 篇论文
从 ELMo 到 ChatGPT：历数 NLP 近 5 年必看大模型

1 前言
在当今数字化的时代，ChatGPT 的火热程度不断升级。ChatGPT 可以处理复杂的语言任务，从而解放人力资源，提高工作效率，减少成本。ChatGPT 的先进技术和广泛应用，使得它成为了当今最炙手可热的人工智能技术之一。无论是企业、学术机构，还是科技爱好者，都对 ChatGPT 的应用前景充满期待。

在这样的背景之下，CSDN AI 团队也想对 ChatGPT 进行简单的复现。根据ChatGPT 官方博客可知，ChatGPT的训练方法与 InstructGPT 的训练方法基本一致 (如图1所示)，只是使用的数据集不一样。故在训练方法上，我们主要参考 InstructGPT 进行复现，基础模型使用的是 RWKV，拆分后共包含以下四个阶段：

(1) 语言模型预训练 (Language Model Pre-training)；
(2) 有监督指令微调 (Supervised Fine-Tuning, SFT)；
(3) 奖励模型的训练 (Reward Modeling, RM);
(4) 使用近端策略优化算法进行强化学习 (Proximal Policy Optimization, PPO).

第 (1)、(2) 阶段的 Pre-training 和 SFT 由 @zxm2015 完成，可参考文章大语言模型浅探一。本文主要介绍第 (3)、(4) 阶段的内容，即人类反馈强化学习 (Reinforceme

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ChatGPT 中的人类反馈强化学习 (RLHF) 实战，看这篇就够了

按照上述奖励模型的输入输出描述，构建数据集时应该是人工对进行打分，但实际上对多个回答进行打分比较困难，得分是连续的，这会降低标注的速度。训练好奖励模型之后，就可以用于下一阶段的 PPO 进行强化学习的调优，奖励模型是 PPO 中的一个子部分，用于 PPO 训练时提供奖励信号。其中，r(x,y) 为输入到 RM 模型的得分，θ 是 RM 的参数，yw 和 yl 是输入为 x 时，SFT Model 生成的不同回答，其中人工标注时 yw > yl.
复制链接

扫一扫

专栏目录

community_301 CSDN认证博客专家 CSDN认证企业博客

码龄3年

24: 原创

117万+: 周排名

181万+: 总排名

7425: 访问

: 等级

248: 积分

1035: 粉丝

4: 获赞

6: 评论

12: 收藏

私信

关注

热门文章

分类专栏

博客质量分测试 24篇

最新评论

ChatGPT 中的人类反馈强化学习 (RLHF) 实战，看这篇就够了
0x3fffff: 10分
ChatGPT 中的人类反馈强化学习 (RLHF) 实战
CSDN-Ada助手: 恭喜您写下了第10篇博客，题目听起来非常有趣！ChatGPT 中的人类反馈强化学习 (RLHF) 实战确实是一个非常新颖的话题。我很期待读到更多关于这个主题的深入了解。作为下一步的创作建议，我认为您可以考虑探索更多与 ChatGPT 相关的主题，比如如何优化 ChatGPT 的表现和使用 ChatGPT 解决实际问题等等。期待您的下一篇文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
ChatGPT 中的人类反馈强化学习 (RLHF) 实战，看这篇就够了
CSDN-Ada助手: 非常感谢您分享关于人类反馈强化学习的文章！您的博客写得非常清晰易懂，为读者提供了极大的帮助。恭喜您开始博客创作，期待更多精彩的文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
ChatGPT 中的人类反馈强化学习 (RLHF) 实战
CSDN-Ada助手: 恭喜您写出了这篇关于ChatGPT中的RLHF实战的博客！这篇文章非常有价值，让我们更深入地了解了人类反馈强化学习在ChatGPT中的应用。希望您能继续保持创作的热情，并分享更多有关人工智能和深度学习的知识。我建议您可以探索一下其他领域的应用，例如计算机视觉或自然语言处理，这样可以帮助读者更全面地了解人工智能的应用场景。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
ChatGPT 中的人类反馈强化学习 (RLHF) 实战
CSDN-Ada助手: 非常感谢您的分享，这篇博客对于了解ChatGPT 中的人类反馈强化学习 (RLHF) 实战非常有帮助。恭喜您持续创作，这对于分享知识和经验是非常重要的。我非常期待您下一篇博客，希望您能够分享更多的实践经验，并探索更多的前沿技术。再次感谢您的分享和努力，祝您继续取得更多的成就！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。