MOSS-RLHF实现大模型和人类价值观对齐

以 ChatGPT 为代表的大型语言模型(LLM)在各项任务上的高效表现彰显了其广阔发展前景。然而,大模型回复与人类价值偏好经常存在不一致问题。

如何让大模型更好的与人类价值观对齐,理解语言背后的含义,生成更具 “人情味” 的内容成为大语言模型研究的热点。最近,复旦大学自然语言处理(FudanNLP)团队桂韬、张奇课题组在这一技术难题上取得巨大进展!该团队深入研究了大模型的基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 细节,为大模型人类对齐训练提供了更加稳定可靠的解决方案。

此外,该团队在开源领域迈出重要一步 —— 首次同时发布大模型人类对齐技术报告与开源核心代码 ,为推动中文 NLP 社区繁荣做出重大贡献。

大模型人类对齐面临挑战

未经人类对齐的大模型常常生成有害内容,存在安全性方面的隐患,直接影响大模型的落地。实现人类对齐的大模型通常需要满足 3H 条件:Helpful(有益),Honest(诚实),Harmless(无害)。当前,达成这一目标的重要技术范式是基于人类反馈的强化学习(RLHF)。然而受限于实验设计困难、试错成本巨大等多重因素,RLHF 的稳定训练仍然是一个难题。

OpenAI 此前公布的 InstructGPT 技术报告中将 PPO(Proximal Policy Optimization,近端策略优化)算法作为 RLHF 阶段的强化学习算法。然而其并未开源训练技术细节,且 PPO 算法在过去通常被应用于自动化、游戏等领域,其在自然语言处理(NLP)领域的具体作用仍需大量实验验证,但当前国内并没有一项完整的工作探究 PPO 的稳定训练及其在大模型人类对齐中的影响。面对这一技术挑战,研究人员迫切需要进一步探索 PPO 算法对大模型人类对齐的作用机理。 

确定大模型人类对齐的关键因素,提高对齐的训练稳定性

FudanNLP 团队通过大量、详实工作,设计实验充分探索了大模型 RLHF 的完整工作流程,仔细剖析了 RLHF 中的强化学习 PPO 算法的内部工作原理以及它在整个 RLHF 中的作用,并研究各种优化方法如何影响训练过程。通过这些努力,确定了使得 PPO 算法在大模型人类对齐方面行之有效的关键因素。

综合上述发现,该团队进一步总结出在大模型上训练更稳定的 PPO 算法版本:PPO-max。并使用 Helpful 和 Harmless 数据集全面评估,结果显示经过 PPO-max 算法训练的模型展现出了出色的人类对齐性能!

经人类对齐后大模型安全伦理表现优异

经过人类对齐训练后的 RLHF 模型相对 SFT(Supervised Fine-Tuning,监督微调)模型的性能表现如下图所示。该研究采取人工评测和 GPT-4 评测两种方式,人工评测基于参与评测人员对于不同模型输出的偏好,而在 GPT-4 评测过程中,该研究要求 GPT-4 生成详细的评测理由,这将使得最终的结果更加公平。

人工评测:评测人员在中文和英文两种类型的问题上,均更倾向于 RLHF 模型的输出。具体来说,RLHF 模型在英文 Harmless 数据集上优势显著,人工评测得分为 62%,而 SFT 模型的得分为 5%。这表明,经过 RLHF 训练的语言模型极大地提高了其面对各种有害性问题时的处理能力,包括个人隐私、政治敏感话题以及种族群体提问中带有歧视、偏见的提示。此外,在 Helpful 数据集上也可以观察到一定程度的提升:RLHF 模型的评分为 44%,而 SFT 模型的评分为 30%。这表明,SFT 模型也可以从 RLHF 优化训练中受益。人工评测的结果同时验证了 RLHF 训练能够提高 SFT 模型在中文 Helpful 和 Harmless 数据集上的性能。

GPT-4 评测:GPT-4 是目前为止性能最强的语言模型,先前的研究结果显示,引入 GPT-4 进行端到端自动化评测可以提供相对公平的结果。如上图所示,该研究观察到其评测结果和人工评测之间有着密切相似之处,尽管 GPT-4 产生了比人工评测更多的平局打分,但 RLHF 模型继续在 Harmless 数据集上表现出显着优势,这种表现趋势在中文 Harmless 数据集上也很明显。值得注意的是,与人工评测相比,在 GPT-4 评测下, RLHF 模型在中文 Helpful 数据集上相对 SFT 模型也有显著的改进。

项目主要作者 FudanNLP 组博士生郑锐补充到:"在开展 RLHF 项目的过程中,我们发现 PPO 算法是模型稳定训练的关键,而 RM (reward model) 的质量决定了模型性能的上限,在本次开源的 RM 基础上,我们也将继续努力探索如何构造更高质量的 RM。"

人类价值观对齐

使用 PPO-max 算法训练的模型与人类价值观实现了有效的对齐,模型落地更安全。

【例 1】:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sam5198

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值