谷歌研究科学家：ChatGPT秘密武器的演进与局限

OneFlow深度学习框架

已于 2023-04-17 16:34:45 修改

阅读量7.6k

点赞数 2

分类专栏：业界观点文章标签： chatgpt 人工智能机器学习深度学习语言模型

于 2023-04-12 08:03:27 首次发布

本文链接：https://blog.csdn.net/OneFlow_Official/article/details/130120420

版权

谷歌研究科学家Natasha Jaques揭示了ChatGPT超越GPT-3的关键在于RLHF（人类反馈的强化学习）。RLHF通过结合预训练和人类反馈进行模型优化，具体步骤包括监督学习、多答案排名和奖励模型优化。Natasha讨论了RLHF的成本效益、奖励模型的局限性、以及未来在社交强化学习上的研究方向。她指出，尽管RLHF取得显著进展，但仍面临奖励模型过度拟合和泛化能力的挑战。

摘要由CSDN通过智能技术生成

来源｜TalkRL

OneFlow编译
翻译｜徐佳渝、贾川

同样是基于GPT预训练模型，为什么ChatGPT的效果要远远超出GPT-3等前几代模型？答案已经揭晓，成就ChatGPT的秘密武器在于RLHF，也就是人类反馈的强化学习。

在预训练阶段，GPT模型学习关于这个世界的一切，而在RLHF阶段，ChatGPT更关注的让模型输出正确、有益的恰当结果，并对结果不断进行微调。

具体而言，RLHF阶段的调优又分为三大步骤：第一步：通过监督学习，用人类对不同提示的“理想”回答数据微调LLM；第二步：LLM 为每个提示提供多个答案，然后由人工评估员对这些答案进行排名（该排名用于训练奖励模型）；第三步：用近端策略优化（PPO）模型来优化LLM的奖励模型。

此前，ChatGPT负责人John Schulman介绍了RLHF想法的起源，关键在于他们在语言模型中应用强化学习，使用人类反馈去定义奖励函数。此外，OpenAI的RLHF所使用的诸多技术也是基于前人研究基础上组合而成的成果，其中就包括Natasha Jaques的工作。

Natasha是Google Brain的高级研究科学家，OpenAI的不少工作引用了她所发表的与RLHF和对话模型相关的强化学习论文。在近期Robin Ranjit Singh Chauhan主持的TalkRL播客节目中，她从第三方视角，介绍了对RLHF及其奖励模型相关思路，以及对强化学习研究与AGI发展等方面的看法。

目前，她的研究重点是社交强化学习（Social Reinforcement Learning），开发结合来自社交学习和多智能体训练的见解的算法，以提高AI智能体的学习、泛化、协作以及人机交互能力。2024年1月，她将加入华盛顿大学计算机科学学院担任助理教授。

（以下内容经授权后由OneFlow编译发布，译文转载请联系OneFlow获得授权。来源：https://www.talkrl.com/episodes/natasha-jaques-2）

RLHF相关研究与成本效益

Robin Chauhan：你很早就开始了人类反馈的强化学习（RLHF）以及对话模型这方面的类似研究，而且OpenAI发表的许多重要论文引用了你的研究成果。能否谈谈你的研究与OpenAI当前的研究和这些模型之间的联系？

Natasha Jaques：回到2016年，当时我正在思考如何利用预训练语言模型进行微调。具体来说，我关注的是LSTM模型，并尝试使用强化学习对其进行微调。那时，我关注的点不在语言本身，而是音乐生成和分子生成之类的方法，例如生成类似药物分子的方法。

在我看来，分子生成是一个很好的示例。我们可以基于已知分子数据集去训练一个监督模型，并生成新的分子，但是这些分子可能缺乏我们所需的特性，如易于合成药物。因此，我们还需要对分子的“合成可及性（synthetic accessibility）”进行评估。但仅依靠数据集训练是不够的，因为这样无法得到优化的分子。如果仅仅优化分子的合成可及性，也可能会生成一些无用的分子。

因此，我们需要对这两个方面进行评估和优化。对于这一问题，我们可以使用强化学习来优化药物相似性（drug likeness）或合成可及性，但由于数据存在缺陷，这种方法并不完美。

我们提出了一个解决方案：首先在数据集上进行预训练，然后再使用强化学习来优化某些奖励，同时最小化预训练策略与当前策略之间的KL散度。这种方法可以灵活地结合监督学习和强化学习，使用监督学习来获得数据集中的有用信息，同时使用强化学习来优化在数据分布空间内具有高回报的序列。可以看出，这与当前使用的RLHF方法密切相关。

在该技术中，我们首先在数据集上对大型语言模型进行预训练，然后通过人类反馈来优化模型，同时最小化优化模型与预训练先验模型之间的KL散度，这对于RLHF框架有重要意义。

同时，我也在研究从人类反馈中学习的RLHF方法。2019年前后，我们采用了同样的KL控制方法，即让对话模型尝试优化与人类交谈获得的信号，而非让人类评价对话的好坏，同时采用与OpenAI的RLHF算法不同的方式来实现偏好排序。

我们的目标是从与人类对话的隐含信号中学习，而非仅仅依靠人类的评价来进行优化。我们不需要人们额外提供反馈，而是通过分析文本的情感等隐含信号来为模型提供奖励信号。

例如，当对话中的人听起来普遍高兴时，我们就会将其视为正面奖励信号来训练模型。反之，当他们听起来

最低0.47元/天解锁文章

OneFlow深度学习框架

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
谷歌研究科学家：ChatGPT秘密武器的演进与局限

同样是基于GPT预训练模型，为什么ChatGPT的效果要远远超出GPT-3等前几代模型？答案已经揭晓，成就ChatGPT的秘密武器在于RLHF，也就是人类反馈的强化学习。在预训练阶段，GPT模型学习关于这个世界的一切，而在RLHF阶段，ChatGPT更关注的让模型输出正确、有益的恰当结果，并对结果不断进行微调。具体而言，RLHF阶段的调优又分为...
复制链接

扫一扫

专栏目录