NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)

25b3f8afbe980f61f415a5ca5cb81486.gif

©PaperWeekly 原创 · 作者 | 郎皓

单位 | 阿里巴巴

c7ad53ba04cafef7b4300b7a1a977c2b.png

论文标题:

Fine-Tuning Language Models with Reward Learning on Policy

论文作者:

郎皓、黄非、李永彬

收录会议:

NAACL 2024

论文链接:

https://arxiv.org/abs/2403.19279

代码和数据:

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp

775a725cbd2b1564785c697ba40fbc7f.png

引言

目前,大语言模型(LLMs)在遵循开放域用户指令方面表现出强大能力 [1]。这项能力主要归功于利用人类偏好数据微调预训练大语言模型(Reinforcement Learning from Human Feedback,RLHF)[2]。

一个典型的 RLHF 过程包括三个相关步骤 [3]:人类偏好数据搜集、奖励模型学习(reward learning)和策略优化(policy optimization),如下图(top)所示。

上述 RLHF 的三个步骤通常先后串行执行。因为策略优化在微调大语言模型过程中改变了其数据分布,导致基于离线数据训练的(fixed)奖励模型存在不准确地分布偏离问题(inaccurate off-distribution)。

因此,奖励模型准确率会快速下降并相应地损害策略模型的性能。该问题可以通过持续从最新策略模型采样并标注人类偏好数据解决,但是这样会显著增加系统的复杂度使其难以优化。与此同时,在该设定中长期维护数据质量将消耗大量资源。

在这篇论文中,我们展现在不需要持续标注新的偏好数据前提下,如何基于策略模型优化奖励模型并使之分布准确(on-distribution)。我们提出 Reward Learning on Policy(RLP)框架:以无监督的方式,利用策略模型的采样数据优化奖励模型。

RLP 先基于典型的 RLHF 方法从头训练一个奖励模型和一个策略模型,然后考虑已训练策略模型的数据分布重新训练奖励模型,最后基于重新训练的奖励模型重新训练策略模型,如下图(bottom)所示。

具体地,RLP 提出两种方法利用策略模型的采样数据重新训练奖励模型:无监督多视角学习(Unsupervised Multi-View Learning,UML)和伪偏好数据生成(Synthetic Preference Generation,SPG)。

RLP-UML 通过策略模型生成两个结果的方式构建一个输入的两个视角,然后在奖励模型拟合人类偏好数据的同时优化一个多视角信息瓶颈损失函数(multi-view information bottleneck loss)。

此外,RLP-SPG 利用策略模型的采样数据模拟偏好数据。与经典的 RLAIF 方式(基于 LLMs 生成一个输入的两个结果并打分)不同,RLP-SPG 生成一个输入的多个结果并构成一个集合。这样 RLP-SPG 可以通过度量结果集合最大簇的大小,推断模型生成结果的不确定性并决定何时相信模型的预测结果。

该采样策略与自一致性(self-consistency)假设相符,即从结果集合最大簇挑选被选择结果(preferred output),从剩余的其它簇随机挑选未被选择结果(non-preferred output)。

我们的实验表明在三个标准的测试集,RLP 效果优于其它基于人类反馈的方法,包括基于 PPO 的 RLHF 方法。

876977c8649afb92c53549a8bafbe697.png

eb22f0d2642103d233abf1b884ea41ac.png

RLP的实现

9c11bcf5692777c1a82123eb14211a77.png

我们提出一个新的 RLHF 框架,共包括以下 5 个步骤:

Step 0,监督微调:

基于指令遵循示例数据 ,有监督微调预训练语言模型,得到 SFT 模型 。

Step 1,人类偏好数据搜集:

首先,SFT 模型对输入指令 生成两个结果 。然后,展示给标注人员并让其表达偏好 ,其中 为被选择结果、 为未被选择结果。

Step 2,奖励模型学习:

基于损失函数 训练奖励模型 ,其中 为偏好数据集, 为 sigmoid 函数。

Step 3,策略优化:

基于奖励模型 微调语言模型,最大化 得到策略模型 ,其中 为未标注的指令集合, 通常为 SFT 模型。该优化目标通常基于 PPO 算法进行优化。

Step 4,奖励模型再学习:

我们首先构建策略模型的采样集合 ,其中 是策略模型 生成的 个结果集合。

然后,我们基于 和 重新训练奖励模型。具体地,我们提出两种方法:无监督多视角学习(Unsupervised Multi-View Learning,UML)和伪偏好数据生成(Synthetic Preference Generation,SPG)。

  • 无监督多视角学习

对于 ,我们首先构建多视角:。我们基于高斯分布参数化视角的表示 。

然后,我们基于多视角信息瓶颈损失函数(multi-view information bottleneck loss)做无监督表示学习:,其中 表示两个随机变量的互信息, 表示对称 KL 距离。

  • 伪偏好数据生成

对于 ,我们假设结果集合 中最频繁的样本为正确结果,并且其频次为置信度。具体地,我们先把 中样本聚类成簇 , 的置信度可表示为 ,其中 为 中最大的簇。

这样我们可以有选择的生成偏好数据 ,其中 从最大的簇 采样出, 从其它的簇采样。

再学习的奖励模型 的损失函数为:。为简化计算复杂度,我们实现两个变体:1)RLP_UML 去除伪偏好集合 ;2)RLP_SPG 设置 。

Step 5,策略模型再学习:

我们基于重新训练的奖励模型 二次训练策略模型 ,最大化 。

3c5ab9508480ec27a8591e6f5312c1be.png

实验

3.1 主实验

我们在 AlpacaFarm、LLMBar、Vicuna 三个标准测试集实验。评测指标基于广泛采样的 Win-Rate,其中 Simulated Win-Rate 利用 API LLMs 打分,Human Win-Rate 基于人工打分。

如下表所示,GPT-4 取得最好的结果。在我们实现的 LLMs 中,RLP-SPG 在三个测试集的两个指标均取得最好结果,超过 PPO 基准方法。

2cf91e9f1b86e8cc72bfcd6a352b7428.png

为进一步验证 RLP 相对其它基准方法的优势,下图展示了 RLP-SPG 在 AlpacaFarm 各个数据子集中相对 PPO 的表现。我们可以观察到 RLP-SPG 稳定的表现优于 PPO。

542f9d1c41116192078ab8c7a48b4aa3.png

RLP 相对基准方法的优势也可以被定性的观察出来。下表展示的例子表明:相对于基准方法,RLP 生成的结果更加详尽。

cb78596879840f7b6d0ee90be49dc3b6.png

3.2 消融实验

3.2.1 信息瓶颈损失函数

我们实验了信息瓶颈损失函数(information bottleneck loss)相对于其它无监督表示学习损失函数的优势,包括:1. InfoMax;2. MVI;3. CL(Contrastive Learning)。如下表所示,RLP-UML 采用的信息瓶颈损失函数比其它损失函数效果更加优异。

3b46dd8e227a1da636f29d0d636be127.png

3.2.2 伪偏好数据生成

我们对比了两种类型的伪偏好数据的生成方法:1. LLMs生成两个结果并打分;2. LLMs 生成一个结果集合,并选取其中的被选择(preferred)结果和不被选择(non-preferred)结果。

对于第一类方法,我们实现了 RLAIF 基于策略模型排序,以及 Reward 基于奖励模型排序。对于第二类方法,我们实现了 Select-All,即通过设置不做生成结果过滤。如下表所示,RLP-SPG 在构造偏好数据的准确性以及微调 LLMs 的效果方面都超过其它方法。

34962752475c1453173176c9b30ac47c.png

96f9c9a678548f20beac8ed8fe8120a3.png

总结

本文提出一种新的大语言模型与人类偏好对齐的方法,即基于策略模型进一步优化奖励模型 Reward Learning on Policy(RLP)。RLP 通过多视角信息瓶颈损失函数可鲁棒地学习策略模型样本分布的表示。RLP 通过构造策略模型的结果集合,有选择地生成高置信度的偏好数据集。大量实验表明 RLP 效果优于目前的 SOTA 基准方法。

outside_default.png

参考文献

outside_default.png

[1] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, and others. 2022. Training language models to follow instructions with human feedback. In NeurIPS.

[2] Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. 2017. Deep reinforcement learning from human preferences. In NeurIPS.

[3] Stephen Casper, Xander Davies, Claudia Shi, and others. 2023. Open problems and fundamental limitations of reinforcement learning from human feedback. TMLR.

如果对我们的工作感兴趣的话,欢迎加入我们!

招聘岗位:Research Intern

工作地点:北京

团队介绍:阿里通义实验室对话智能团队,以大模型研究和应用为中心,推进大模型的大规模商业化应用,主要技术包括:对话、RAG 问答、Code、AI Agents、人类对齐、高效训练等。

过去三年发表 60+ 篇国际顶会论文, ACL 2023 中稿 9 篇,NeurIPS 2023 中稿 2 篇,EMNLP 2023 中稿 7 篇;主要业务场景包括通义晓蜜、通义灵码、通义听悟等。

团队Google scholar:

https://scholar.google.com/citations?user=5QkHNpkAAAAJ

团队Github:

https://github.com/AlibabaResearch/DAMO-ConvAI

岗位要求:

1. 在人工智能相关方向的硕士 / 博士,有 NeurIPS / ICLR / ICML / ACL / EMNLP / NAACL 等顶会论文者优先;

2. 热爱技术,理论扎实,有大模型经验者优先;

3. 具备优秀的分析问题和解决问题的能力,以及良好的沟通协作能力;

简历投递:hao.lang@alibaba-inc.com

邮件标题和简历标明:姓名-岗位名称-PaperWeekly

更多阅读

8368c5253230d92c7159e3137893e365.png

3ed16e927e34fa52faec237cd40b4376.png

6b99b369a4f33181958db5c4b5f9c1d0.png

b2fd006ec6f2f5ff962beea1ff799916.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

b818eb83961ad99842e9a411f24e4a27.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

2571f2f02db89185a0fbfe9ece4974c3.jpeg

### NAACL 2024会议概述 北美计算语言学协会(NAACL, North American Chapter of the Association for Computational Linguistics)是自然语言处理领域的重要学术活动之一。作为ACL的一个分支,NAACL专注于推动北美的研究进展并促进国际间的合作[^2]。 #### 时间与地点 目前尚未有具体关于NAACL 2024的确切时间和举办城市的信息公布。然而,基于以往惯例,该会议通常安排在每年的春季至夏季之间进行,并轮流在美国或加拿大的不同城市召开。可以关注官方渠道获取最新动态。 #### 提交指南 对于希望参与此次盛会的研究人员来说,论文提交类别可能包括但不限于长篇论文、短篇论文以及演示展示等内容形式。需要注意的是,所有投稿均需遵循严格的格式要求和技术标准,以确保评审过程公平公正高效完成。此外,特殊主题研讨会也可能成为亮点部分,鼓励跨学科交叉探索创新思路[^3]。 #### 主要议题方向预测 根据近年来NLP技术发展趋势来看,未来一年内的热点话题或将涵盖以下几个方面: - **预训练模型优化**: 如何进一步提升大规模参数量级下的效率表现; - **多模态融合应用**: 探讨视觉音频文本等多种感官数据联合建模的可能性及其实际应用场景扩展潜力; - **伦理考量因素引入**: 讨论AI系统设计开发过程中如何平衡性能指标达成的同时兼顾社会影响评估等方面的工作成果分享交流机会创造条件等等[^5]。 ```python import requests from bs4 import BeautifulSoup def fetch_conference_details(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') title = soup.find('title').text.strip() date_info = soup.select_one('.date-info').text.strip() if soup.select_one('.date-info') else None location_info = soup.select_one('.location-info').text.strip() if soup.select_one('.location-info') else None return { "Title": title, "Date Info": date_info, "Location Info": location_info } conference_url = "https://naacl.org/2024/" # Hypothetical URL example only. details = fetch_conference_details(conference_url) print(details) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值