RLHF——大型语言模型的推进器

我们一起来看篇去年发表在NIPS的论文,Training language models to follow instructions with human feedback。

我们一起来看篇去年发表在NIPS的论文,Training language models to follow instructions with human feedback

https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2203.02155

这篇论文主要是探讨如何通过人类反馈来微调语言模型,使其符合用户意图,在进行自然语言处理任务时能生成更有用、真实和无害的输出。论文提出了一种新的方法——人类反馈进行强化学习(RLHF)来微调GPT-3模型,以最大程度地满足人类意图。

研究收集了标签人员编写的提示和通过语言模型API提交的提示,以创建一个标签人示范所需模型行为的数据集。使用这个数据集来训练监督学习基线,并使用人类标记的比较来训练奖励模型。最后,作者使用PPO算法将奖励模型作为奖励函数来微调监督学习基线,生成了名为InstructGPT的模型,这些模型在真实性、有害内容生成和适当的输出生成方面均表现出显著的改进。

在文章的末尾,作者认为使用人类反馈微调语言模型是与人类意图相符的一个有前途的方向。

简要概括

InstructGPT分为如下图三步。

这篇论文主要是探讨如何通过人类反馈来微调语言模型,使其符合用户意图,在进行自然语言处理任务时能生成更有用、真实和无害的输出。论文提出了一种新的方法——人类反馈进行强化学习(RLHF)来微调GPT-3模型,以最大程度地满足人类意图。

研究收集了标签人员编写的提示和通过语言模型API提交的提示,以创建一个标签人示范所需模型行为的数据集。使用这个数据集来训练监督学习基线,并使用人类标记的比较来训练奖励模型。最后,作者使用PPO算法将奖励模型作为奖励函数来微调监督学习基线,生成了名为InstructGPT的模型,这些模型在真实性、有害内容生成和适当的输出生成方面均表现出显著的改进。

在文章的末尾,作者认为使用人类反馈微调语言模型是与人类意图相符的一个有前途的方向

简要概括

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值