原创 | 一文读懂ChatGPT中的强化学习

数据派THU

于 2023-10-16 17:03:11 发布

阅读量369

点赞数

文章标签： chatgpt 人工智能

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/133874570

版权

作者：陈之炎
本文约2400字，建议阅读8分钟
本文介绍了ChatGPT中的强化学习。

ChatGPT基于OpenAI的GPT-3.5创造，是InstructGPT的衍生产品，它引入了一种新的方法，将人类反馈纳入训练过程中，使模型的输出与用户的意图更好地结合。在OpenAI的2022年论文《通过人类反馈训练语言模型以遵循指令》中对来自人类反馈的强化学习（RLHF）进行了深入描述。

创建者将监督学习和强化学习相结合来微调ChatGPT，强化学习组件是ChatGPT的独到之处。研究人员使用了“根据人类反馈强化学习（Reinforcement Learning from Human Feedback ，RLHF）”的特殊技术，在训练环路中使用人类反馈来尽量减少有害的、不真实的和/或有偏差的输出。

该方法包括以下三个步骤：

第一步：带监督的微调，预训练语言模型对由标注人员管理的相对较少的演示数据进行微调，以学习监督策略（SFT模型），根据选定的提示列表生成输出，这表示基线模型

最低0.47元/天解锁文章

数据派THU

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
原创 | 一文读懂ChatGPT中的强化学习

作者：陈之炎本文约2400字，建议阅读8分钟本文介绍了ChatGPT中的强化学习。ChatGPT基于OpenAI的GPT-3.5创造，是InstructGPT的衍生产品，它引入了一种新的方法，将人类反馈纳入训练过程中，使模型的输出与用户的意图更好地结合。在OpenAI的2022年论文《通过人类反馈训练语言模型以遵循指令》中对来自人类反馈的强化学习（RLHF）进行了深入描述。创建者将监督学习和强...
复制链接

扫一扫