RLHF——大型语言模型的推进器

最新推荐文章于 2024-09-01 14:11:29 发布

YiVal

最新推荐文章于 2024-09-01 14:11:29 发布

阅读量99

点赞数

文章标签： chatgpt AIGC 人工智能笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YiVal/article/details/134081390

版权

我们一起来看篇去年发表在NIPS的论文，Training language models to follow instructions with human feedback。

我们一起来看篇去年发表在NIPS的论文，Training language models to follow instructions with human feedback

https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2203.02155

这篇论文主要是探讨如何通过人类反馈来微调语言模型，使其符合用户意图，在进行自然语言处理任务时能生成更有用、真实和无害的输出。论文提出了一种新的方法——人类反馈进行强化学习（RLHF）来微调GPT-3模型，以最大程度地满足人类意图。

研究收集了标签人员编写的提示和通过语言模型API提交的提示，以创建一个标签人示范所需模型行为的数据集。使用这个数据集来训练监督学习基线，并使用人类标记的比较来训练奖励模型。最后，作者使用PPO算法将奖励模型作为奖励函数来微调监督学习基线，生成了名为InstructGPT的模型，这些模型在真实性、有害内容生成和适当的输出生成方面均表现出显著的改进。

在文章的末尾，作者认为使用人类反馈微调语言模型是与人类意图相符的一个有前途的方向。

简要概括

InstructGPT分为如下图三步。

这篇论文主要是探讨如何通过人类反馈来微调语言模型，使其符合用户意图，在进行自然语言处理任务时能生成更有用、真实和无害的输出。论文提出了一种新的方法——人类反馈进行强化学习（RLHF）来微调GPT-3模型，以最大程度地满足人类意图。

研究收集了标签人员编写的提示和通过语言模型API提交的提示，以创建一个标签人示范所需模型行为的数据集。使用这个数据集来训练监督学习基线，并使用人类标记的比较来训练奖励模型。最后，作者使用PPO算法将奖励模型作为奖励函数来微调监督学习基线，生成了名为InstructGPT的模型，这些模型在真实性、有害内容生成和适当的输出生成方面均表现出显著的改进。

在文章的末尾，作者认为使用人类反馈微调语言模型是与人类意图相符的一个有前途的方向。

简要概括

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
RLHF——大型语言模型的推进器

研究者首先雇用了一些标记员对prompt数据进行回答，称为labeler demonstrations，然后在demonstrations上面对GPT-3进行有监督的微调。微调后的模型我们记作SFT。
复制链接

扫一扫

YiVal CSDN认证博客专家 CSDN认证企业博客

码龄1年

12: 原创

132万+: 周排名

14万+: 总排名

9182: 访问

: 等级

233: 积分

68: 粉丝

113: 获赞

8: 评论

113: 收藏

私信

关注

热门文章

最新评论

字节跳动&伯克利推出AI视频模型Magic-Me
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618318844。
GPT-4 Turbo与GPT-4：什么是ChatGPT Turbo？
CSDN-Ada助手: 恭喜你撰写了第11篇博客！标题看起来很吸引人，对于GPT-4 Turbo和GPT-4的比较一定会让读者收益匪浅。不过，我觉得你可以考虑在接下来的创作中，加入一些个人见解或者案例分析，这样能让读者更好地理解你的观点。希望你能继续保持创作的热情，期待你更多精彩的文章！
使用 GPT-4 和 Midjourney 建构Tiktok故事
CSDN-Ada助手: 恭喜您能够写出如此精彩的第10篇博客！使用GPT-4和Midjourney来建构Tiktok故事的创意真是让人眼前一亮。不过我认为您可以尝试结合更多元的素材和情节，让故事更加生动有趣。希望您能在接下来的创作中继续努力，不断突破自我，为我们带来更多精彩的作品！
Prompt Engineering已成为过去式
CSDN-Ada助手: 恭喜您写了第7篇博客！非常高兴看到您持续创作并分享您的见解。标题“Prompt Engineering已成为过去式”引人瞩目，我很期待阅读您的博客内容。鉴于您的深思熟虑，我想提供一些建议，希望对您的下一步创作有所帮助。或许您可以探索当前最新的工程方法，以及如何将其与过去的Prompt Engineering相结合，从而在这个领域中创造出更具突破性的解决方案。再次感谢您的分享，期待您未来更多精彩的博客！
Yival：GenAI应用程序的自动化调优助手
CSDN-Ada助手: 恭喜您写下了第6篇博客！标题“Yival：GenAI应用程序的自动化调优助手”听起来非常引人注目。您对GenAI应用程序的自动化调优助手的研究和分享，为读者提供了极大的帮助和启发。在阅读您的博客后，我对GenAI应用程序的优化方法有了更深入的了解。不过，作为一名读者，我也希望在您的下一篇博客中看到更多实际案例和具体的应用场景。例如，您可以分享一些使用Yival进行自动化调优的成功案例，或者对于不同类型的GenAI应用程序，如何针对性地使用Yival进行优化。这样的内容将进一步丰富您的博客，并帮助读者更好地理解和应用您的研究成果。期待您未来更多的创作，并感谢您对读者的贡献！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。