媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐

b02bb8eb12bfbb77197e305025ac964b.gif

最近复旦大学自然语言处理组郑骁庆和黄萱菁团队提出了基于表征工程(Representation Engineering)的生成式语言大模型人类偏好对齐方法 RAHF(如图 1 所示),作为基于人类反馈的强化学习算法 RLHF [1] 的代替方法之一,其性能上超过其他现有的替代方案,媲美 RLHF。实现较为简单,训练时对于硬件资源要求也相对较低。

0a9bd847b65043d2ba672d5eb4c31e2a.png

论文题目:

Aligning Large Language Models with Human Preferences through Representation Engineering

论文链接:

https://arxiv.org/pdf/2312.15997.pdf

3a99c94532a21a3d955a3ea1333dd460.png

动机

edd5878f3d546c33d2fcdafc87727d38.png

▲ 图1. 不同人类偏好对齐算法的对比。(a)人类反馈的强化学习算法RLHF;(b)基于对比学习的偏好优化方法DPO;(c)基于提示工程的HIR;(d) 基于表征工程的RAHF。

构建类似 ChatGPT 生成式语言大模型一般要经过语言模型、提令精调和强化学习三个主要训练步骤,其中第三步使用强化学习来实现人类期望对齐既有一定的技术难度,又需要多次人工标注反馈,因而实现上有一定挑战。经过前两步语言模型和提令精调之后,语言大模型仍然会生成带有偏见、歧视或者令人不适的回答。

为了提升大模型的安全性、可用性和可信性,与人类期望对齐是必不可少的步骤。然而目前研究表明利用人类反馈的强化学习算法 [1](RLHF)存在训练不稳定、对超参数敏感和训练代价较高等问题。 

针对基于强化学习的人类偏好对齐方法的上述不足,最近提出了一些替代的方法,相关实现思路和方法包括:

1. 借助对比学习的方法 [2-4],代表性工作为 DPO(Direct preference optimization)[2],即提高符合人类偏好回复生成概率的同时,降低人类满意度较低回复的生成概率;

2. 基于提示工程的方法 [5-6],代表性工作为 HIR(Hindsight instruction relabeling)[5],即根据与人类偏好相符程度,设计不同的提示。在推理时使用匹配人类偏好较高的提示,从而引出更好的回答。 

虽然上述方法都是 Reward-free 的方法(即不需要训练奖励评估模型),但实验表明这些替代强化学习方法存在容易受到训练集中噪声样本的影响(比如:错误标注、Dull Sentences 和较短回复等)。

主要原因是它们都是采用在样本上直接精调的方式实现与人类偏好对齐,因而易受样本质量的影响,而基于人类反馈的强化学习算法先训练评估模型,然后采用评估模型的评分来引导模型的训练过程。即使训练样本存在的噪声,也通过评估模型的“过滤”,对最终模型不会产生直接的影响。

e40e2d85f386e0b6cbf3402a9d9fecd7.png

方法

为了获得轻量级、易实现和 Reward-free 的人类偏好对齐方法,同时也缓解最终模型受训练样本中噪声数据的不利影响。受到表征工程 Representation Engineering [7] 方面最新进展的启发,我们提出了 RAHF(Representation Alignment from Human Feedback)方法。

在神经网络中,网络权重决定了隐层表征、隐层表征决定了网络输出、网络输出决定了网络行为(如:安全、真实、偏见等方面)。我们通过首先发现模型在生成不同质量回复时网络隐层激发模式及差异,然后利用差异来对模型行为进行调整和操控。具体方法包括以下三个主要步骤:

1. 使用带偏好注释的数据集来让大型语言模型“感知”人类的偏好;

2. 收集模型在不同偏好“刺激”情况下的隐层激活模式;

3. 利用收集到的激活模式及差异来调整模型使其与与人类偏好对齐。 

我们尝试了两种方法让模型“感知”人类偏好:单一模型(RAHF-SCIT)和二元模型(RAHF-DualLLMs)。都取得了不错的结果,虽然二元模型 RAHF-DualLLMs 性能更佳,但单一模型 RAHF-SCIT 实现更为简单,对硬件资源的要求也更低。

99cea886b086d307cd1113c0ce20490f.png

结果

我们在对话任务上对进行了对比实验。实验结果表明所提出的 RAHF 人类偏好对齐方法在各项指标上都优于其他非强化学习方法,并取得了与 RLHF-PPO 相媲美的结果。

如表 1 所示,在 Anthropic-HH 数据集上相对于首选回复的胜率(结果使用 GPT-4 进行评判),我们所提出的 RAHF-DualLLMs 超过了除 RLHF-PPO 之外的所有代替方法,并且与 RLHF-PPO 仅有 0.01 的差距。

ff4133d1317de65e70f46f26f6422267.png

▲ 表1. 在Anthropic-HH数据集上相对于首选回复的胜率(结果使用GPT-4进行评判)

表 2 报告了在不同生成采样温度下,偏好注释数据上我们自己所训练的奖励模型(Reward model)和第三方提供的奖励模型上的各方法的平均得分比较,这些数据也与表 1 的结果相吻合,并且表现出相似的趋势。

ccb981844d376a2f72df7091c29ada0f.png

▲ 表2. 在不同生成采样温度下,偏好注释数据上所训练的奖励模型(Reward model)和第三方提供的奖励模型上的各方法的平均得分比较。

这项工作我们尝试了一种受认知神经科学理论启发的基于表征工程来实现生成式语言大模型与人类偏好对齐的策略,旨在提出一种轻量级和易实现的解决方案。目前仍然还有许多可改进的空间,我们希望这项研究能够有助于更可控人工智能技术的发展。

outside_default.png

参考文献

outside_default.png

[1]Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.

[2]Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290.

[3]Zhao, Y., Joshi, R., Liu, T., Khalman, M., Saleh, M., & Liu, P. J. (2023). SLIC-HF: Sequence likelihood calibration with human feedback. arXiv preprint arXiv:2305.10425.

[4]Yuan, Z., Yuan, H., Tan, C., Wang, W., Huang, S., & Huang, F. (2023). RRHF: Rank responses to align language models with human feedback without tears. arXiv preprint arXiv:2304.05302.

[5]Zhang, T., Liu, F., Wong, J., Abbeel, P., & Gonzalez, J. E. (2023). The wisdom of Hindsight makes language models better instruction followers. arXiv preprint arXiv:2302.05206.

[6]Liu, H., Sferrazza, C., & Abbeel, P. (2023). Languages are rewards: Hindsight finetuning using human feedback. arXiv preprint arXiv:2302.02676.

[7]Zou, A., Phan, L., Chen, S., Campbell, J., Guo, P., Ren, R., ... & Hendrycks, D. (2023). Representation engineering: A top-down approach to AI transparency. arXiv preprint arXiv:2310.01405.

更多阅读

6072508ee569f0d0ef26efdf6ed6d305.png

1719850619a2d43751eb139b02d03a50.png

e7d3b865698fa9c7d1d9986c2578ec4a.png

36ffbf71645745426af3cc3581038431.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

5ba781121c9aa072691da485b2eb0193.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

88b5ae08ff5c19abf6498529098853f7.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值