谷歌研究科学家:ChatGPT秘密武器的演进与局限

谷歌研究科学家Natasha Jaques揭示了ChatGPT超越GPT-3的关键在于RLHF(人类反馈的强化学习)。RLHF通过结合预训练和人类反馈进行模型优化,具体步骤包括监督学习、多答案排名和奖励模型优化。Natasha讨论了RLHF的成本效益、奖励模型的局限性、以及未来在社交强化学习上的研究方向。她指出,尽管RLHF取得显著进展,但仍面临奖励模型过度拟合和泛化能力的挑战。
摘要由CSDN通过智能技术生成

9977606974fa6b1b4ff0ca90e60d9221.png

来源|TalkRL

OneFlow编译
翻译|徐佳渝、贾川

 

同样是基于GPT预训练模型,为什么ChatGPT的效果要远远超出GPT-3等前几代模型?答案已经揭晓,成就ChatGPT的秘密武器在于RLHF,也就是人类反馈的强化学习

在预训练阶段,GPT模型学习关于这个世界的一切,而在RLHF阶段,ChatGPT更关注的让模型输出正确、有益的恰当结果,并对结果不断进行微调。

具体而言,RLHF阶段的调优又分为三大步骤:第一步:通过监督学习,用人类对不同提示的“理想”回答数据微调LLM;第二步:LLM 为每个提示提供多个答案,然后由人工评估员对这些答案进行排名(该排名用于训练奖励模型);第三步:用近端策略优化(PPO)模型来优化LLM的奖励模型。

此前,ChatGPT负责人John Schulman介绍了RLHF想法的起源,关键在于他们在语言模型中应用强化学习,使用人类反馈去定义奖励函数。此外,OpenAI的RLHF所使用的诸多技术也是基于前人研究基础上组合而成的成果,其中就包括Natasha Jaques的工作。

Natasha是Google Brain的高级研究科学家,OpenAI的不少工作引用了她所发表的与RLHF和对话模型相关的强化学习论文。在近期Robin Ranjit Singh Chauhan主持的TalkRL播客节目中,她从第三方视角,介绍了对RLHF及其奖励模型相关思路,以及对强化学习研究与AGI发展等方面的看法。

目前,她的研究重点是社交强化学习(Social Reinforcement Learning),开发结合来自社交学习和多智能体训练的见解的算法,以提高AI智能体的学习、泛化、协作以及人机交互能力。2024年1月,她将加入华盛顿大学计算机科学学院担任助理教授。

(以下内容经授权后由OneFlow编译发布,译文转载请联系OneFlow获得授权。来源:https://www.talkrl.com/episodes/natasha-jaques-2)

1

RLHF相关研究与成本效益

Robin Chauhan:你很早就开始了人类反馈的强化学习(RLHF)以及对话模型这方面的类似研究,而且OpenAI发表的许多重要论文引用了你的研究成果。能否谈谈你的研究与OpenAI当前的研究和这些模型之间的联系?

Natasha Jaques:回到2016年,当时我正在思考如何利用预训练语言模型进行微调。具体来说,我关注的是LSTM模型,并尝试使用强化学习对其进行微调。那时,我关注的点不在语言本身,而是音乐生成和分子生成之类的方法,例如生成类似药物分子的方法。

在我看来,分子生成是一个很好的示例。我们可以基于已知分子数据集去训练一个监督模型,并生成新的分子,但是这些分子可能缺乏我们所需的特性,如易于合成药物。因此,我们还需要对分子的“合成可及性(synthetic accessibility)”进行评估。但仅依靠数据集训练是不够的,因为这样无法得到优化的分子。如果仅仅优化分子的合成可及性,也可能会生成一些无用的分子。

因此,我们需要对这两个方面进行评估和优化。对于这一问题,我们可以使用强化学习来优化药物相似性(drug likeness)或合成可及性,但由于数据存在缺陷,这种方法并不完美。

我们提出了一个解决方案:首先在数据集上进行预训练,然后再使用强化学习来优化某些奖励,同时最小化预训练策略与当前策略之间的KL散度。这种方法可以灵活地结合监督学习和强化学习,使用监督学习来获得数据集中的有用信息,同时使用强化学习来优化在数据分布空间内具有高回报的序列。可以看出,这与当前使用的RLHF方法密切相关。

在该技术中,我们首先在数据集上对大型语言模型进行预训练,然后通过人类反馈来优化模型,同时最小化优化模型与预训练先验模型之间的KL散度,这对于RLHF框架有重要意义。

同时,我也在研究从人类反馈中学习的RLHF方法。2019年前后,我们采用了同样的KL控制方法,即让对话模型尝试优化与人类交谈获得的信号,而非让人类评价对话的好坏,同时采用与OpenAI的RLHF算法不同的方式来实现偏好排序。

我们的目标是从与人类对话的隐含信号中学习,而非仅仅依靠人类的评价来进行优化。我们不需要人们额外提供反馈,而是通过分析文本的情感等隐含信号来为模型提供奖励信号。

例如,当对话中的人听起来普遍高兴时,我们就会将其视为正面奖励信号来训练模型。反之,当他们听起来

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值