ChatGPT 中的人类反馈强化学习 (RLHF) 实战

最新推荐文章于 2024-11-03 22:24:57 发布

community_301

最新推荐文章于 2024-11-03 22:24:57 发布

阅读量272

点赞数

分类专栏：博客质量分测试文章标签： chatgpt 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/community_301/article/details/130932980

版权

本文介绍了ChatGPT中的人类反馈强化学习（RLHF），包括奖励模型（RM）和近端策略优化算法（PPO）。RM通过人工反馈对SFT Model的回答进行打分，而PPO利用RM提供的奖励信号优化策略。RLHF通过与人类交互，提升模型的回答质量，但受限于算力，仅完成了训练流程的调试。

摘要由CSDN通过智能技术生成

目录

1 前言
2 人类反馈强化学习 (RLHF)
- 2.1 奖励模型 (RM)
- 2.2 近端策略优化算法 (PPO)
3 总结
4 参考

团队博客: CSDN AI小组

相关阅读

1 前言

在当今数字化的时代，ChatGPT 的火热程度不断升级。ChatGPT 可以处理复杂的语言任务，从而解放人力资源，提高工作效率，减少成本。ChatGPT 的先进技术和广泛应用，使得它成为了当今最炙手可热的人工智能技术之一。无论是企业、学术机构，还是科技爱好者，都对 ChatGPT 的应用前景充满期待。

在这样的背景之下，CSDN AI 团队也想对 ChatGPT 进行简单的复现。根据ChatGPT官方博客可知，ChatGPT的训练方法与 InstructGPT 的训练方法基本一致 (如图1所示)，只是使用的数据集不一样。故在训练方法上，我们主要参考 InstructGPT 进行复现，基础模型使用的是 RWKV，拆分后共包含以下四个阶段：

(1) 语言模型预训练 (Language Model Pre-training)；
(2) 有监督指令微调 (Supervised Fine-Tuning, SFT)；
(3) 奖励模型的训练 (Reward Modeling, RM);
(4) 使用近端策略优化算法进行强化学习 (Proximal Policy Optimization, PPO).

第 (1)、(2) 阶段的 Pre-training 和 SFT 由 @zxm2015 完成，可参考文章大语言模型浅探一。本文主要介绍第 (3

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

community_301 CSDN认证博客专家 CSDN认证企业博客

码龄3年

24: 原创

118万+: 周排名

205万+: 总排名

1万+: 访问

: 等级

249: 积分

1031: 粉丝

4: 获赞

6: 评论

12: 收藏

私信

关注

热门文章

分类专栏

博客质量分测试 24篇

最新评论

ChatGPT 中的人类反馈强化学习 (RLHF) 实战，看这篇就够了
0x3fffff: 10分
ChatGPT 中的人类反馈强化学习 (RLHF) 实战
CSDN-Ada助手: 恭喜您写下了第10篇博客，题目听起来非常有趣！ChatGPT 中的人类反馈强化学习 (RLHF) 实战确实是一个非常新颖的话题。我很期待读到更多关于这个主题的深入了解。作为下一步的创作建议，我认为您可以考虑探索更多与 ChatGPT 相关的主题，比如如何优化 ChatGPT 的表现和使用 ChatGPT 解决实际问题等等。期待您的下一篇文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
ChatGPT 中的人类反馈强化学习 (RLHF) 实战，看这篇就够了
CSDN-Ada助手: 非常感谢您分享关于人类反馈强化学习的文章！您的博客写得非常清晰易懂，为读者提供了极大的帮助。恭喜您开始博客创作，期待更多精彩的文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
ChatGPT 中的人类反馈强化学习 (RLHF) 实战
CSDN-Ada助手: 恭喜您写出了这篇关于ChatGPT中的RLHF实战的博客！这篇文章非常有价值，让我们更深入地了解了人类反馈强化学习在ChatGPT中的应用。希望您能继续保持创作的热情，并分享更多有关人工智能和深度学习的知识。我建议您可以探索一下其他领域的应用，例如计算机视觉或自然语言处理，这样可以帮助读者更全面地了解人工智能的应用场景。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
ChatGPT 中的人类反馈强化学习 (RLHF) 实战
CSDN-Ada助手: 非常感谢您的分享，这篇博客对于了解ChatGPT 中的人类反馈强化学习 (RLHF) 实战非常有帮助。恭喜您持续创作，这对于分享知识和经验是非常重要的。我非常期待您下一篇博客，希望您能够分享更多的实践经验，并探索更多的前沿技术。再次感谢您的分享和努力，祝您继续取得更多的成就！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。