AAAI 2025 | 通义实验室提出基于辩论的弱监督对齐强模型方法,探索超级对齐新范式...

2c4cde6ab7d2c6a19c435ca68ee41c0f.gif

本研究提出了一种基于辩论的弱监督对齐强模型方法,探索了结合 scalable oversight 和 weak-to-strong generalization 解决超级对齐问题的新范式。

1c1bc8aaa2a2a1b7fb5e7f047b5d3eba.png

论文标题:

Debate Helps Weak-to-Strong Generalization

论文作者:

郎皓、黄非、李永彬

收录会议:

AAAI 2025 (Special Track on AI Alignment, Oral)

论文链接:

https://arxiv.org/abs/2501.13124

Highlights :

  • 提出结合 scalable oversight 和 weak-to-strong generalization 的新方法,在 OpenAI 的 weak-to-strong 数据集取得更好的对齐效果。

  • 验证了辩论可更可靠从预训练大模型中抽取可信知识,并用于帮助训练弱监督模型。

  • 验证了弱模型的 ensemble,可帮助获得更可靠的监督信号。

4518709d04ade6165909c89b68ce300f.png

背景

目前 AI 对齐技术依赖于人类的标注数据,譬如用于 supervised finetuning 的 human demonstrations,亦或是用于 RLHF 和 DPO 的 human preferences。

未来超人模型(superhuman models)在一些领域会超越人类的能力,因此人类在对齐超人模型时只能提供弱监督信号。这可预期的人类监督信号的缺陷会影响未来 AI 系统的安全性。

Scalable oversight [1] 和 weak-to-strong generalization [2] 是解决上述超级对齐问题的两类方法 [3]。Scalable oversight 试图提高人类的提供监督信号的能力,使其可标注更准确的数据对齐超人模型;weak-to-strong generalization 试图微调预训练大模型,使其泛化的效果显著优于弱监督信号。

我们的工作试图结合 scalable oversight 和 weak-to-strong generalization 两类方法的优势,并更好的提升对齐效果。具体地,我们尝试用预训练大模型改善人类监督信号,并用改善的监督信号微调大模型。

为了获得可实验验证的进展,我们考虑了一个类似的设定:我们是否可以用强的大模型改善一个弱模型的监督信号,并用它监督对齐强模型?具体地,我们利用强的大模型帮助在真实标注中训练一个弱的小模型,然后利用弱模型生成的标签微调强模型。

我们发现辩论可以帮助弱模型从强模型中抽取可信的知识,这些知识可以帮助训练更好的弱模型。我们还发现弱模型的 ensemble 可以更好的利用强模型生成的辩论信息,并获得更可靠的监督信号。

在 OpenAI 的 weak-to-strong 数据集实验表明,我们的方法有更好的对齐效果。这进一步说明辩论对 weak-to-strong generalization 是有帮助的。

a90e8f3d95b4072a28d9257238412088.png

方法

我们提出一个新的 weak-to-strong generalization 框架,共包括以下 3 个步骤:

Step 1 通过辩论生成论点:

我们认为预训练大模型有广泛的世界知识,可以帮助很多任务。我们的目标是从不可信的强模型中,通过辩论的方式抽取可信的知识,并利用这些可信知识帮助训练更好的弱模型。

我们首先给出辩论的规则。给定一个问题以及它的两个答案候选(一个准确、一个错误),大模型的两个实例随机地被分配为这两个相反的答案争辩。

辩论基于多轮地辩手之间的文字交换。在达到辩论轮次后,辩论结束,并且辩手的论点被记录下来。在辩论过程中,每个辩手都尽力拿出证据支持自己的观点,并解释为什么对方的观点是错误的。

e225fddb98b466aabe9512e543c5188a.png

上图给出一个辩论的示例。我们观察到辩手 B 支持错误观点,并被激发表述错误论点。尽管如此,在下一轮,辩手A轻易的指出了辩手 B 论点的错误之处。该观察与假设“说谎比识别说谎更困难”一致 [4]。这些辩论的论点提供了有价值的信息说明了两个观点的优点和缺点,可被用于训练更好的弱模型。

Step 2 训练弱模型 Ensemble:

针对训练弱模型的每个样本,我们会额外附加上相应的辩论观点。我们在真实标注数据上利用这些增强的样本训练弱的小模型。我们注意到多轮辩论生成的论点数据会比较长,这会导致弱模型很难理解和处理。因此,我们训练了弱模型的 ensemble,使其生成的监督信号更鲁棒。

Step 3 利用弱模型 Ensemble 训练强模型:

我们最终利用弱模型 ensemble 构建的标签数据微调预训练大模型,从而获得一个对齐的强模型。具体地,我们利用弱模型 ensemble 中每个弱模型预测值的平均值构建标签数据。

f3119d7fa5e89212dc01f035a067831c.png

实验

3.1 主实验

我们在 OpenAI 的 weak-to-strong 数据集实验,包括从 SciQ、BoolQ、CosmosQA 和AnthropicHH 转化而来的四个二分类任务。评测指标基于Accuracy 和 PGR(performance gap recovered)。

我们利用 Qwen/Qwen-7B 训练弱模型,利用 Qwen/Qwen-14B 训练强模型。如下表所示,我们的方法在四个测试集的两个指标均取得最好的效果,超过了利用 auxiliary confidence loss 的方法。

2f36799a0340122792aef12703b92312.png

3.2 消融实验

3.2.1 Scalable oversight 方法

为了验证辩论从不可信强模型中抽取可信信息的能力,我们对比了其他两种不同的 Scalable oversight 方法:1. Consultancy;2. Market-Making。

Consultancy 只有一个预训练大模型的实例作为顾问,它被随机分配支持一个问题两个对立答案中的一个。Market-Making 只有一个预训练大模型的实例作为辩手,它支持未被弱模型选择的另一个答案。

如下表所示,基于辩论的方式取得更好的 Accuracy 和 PGR 评测结果。这也说明了辩论的方式可以更好的从强模型中抽取可信信息。

38b91386d2d7355247a7cb446100540a.png

3.2.2 弱模型 ensemble

我们分析了弱模型 ensemble 在提高弱监督信号鲁棒性的作用。我们对比了其他两种弱模型方法:1. single model;2. finetune ensembles。顾名思义,single model 只训练一个弱模型。finetune ensembles 所有的弱模型成员共享一份辩论论点生成结果。

如下表所示,我们基于辩论的弱模型 ensemble 效果优于其他两个方法,这也说明了辩论论点的多样性在提高弱监督信号鲁棒性方面的作用。

8d0d594f3895ba773cfb4038baa8228d.png

4c4c3b7a48cbc41e1f994a7258b7c51f.png

总结

本文提出一种基于辩论提高弱监督对齐强模型的方法。我们相信结合 scalable oversight 和 weak-to-strong generalization 各自的优势解决弱监督问题,一定是未来超级对齐的重要的研究方向。

outside_default.png

参考文献

outside_default.png

[1] Measuring progress on scalable oversight for large language models. 2022.

[2] Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. 2023.

[3] Combining weak-to-strong generalization with scalable oversight. 2023.

[4] AI safety via debate. 2018.

如果对我们的工作感兴趣的话,

欢迎加入我们!

招聘岗位

Research Intern

工作地点

北京

团队介绍

阿里通义实验室 - 对话智能 & 代码智能团队,以大模型技术为核心,研究及应用方向包括通义灵码(编码助手 & AI 程序员)、通义星尘(角色扮演 & IP 复刻 & 类人智能体)、通义晓蜜(智能客服)、通义听悟(音视频对话分析)等。2020 年以来,围绕预训练、对话智能、代码智能、大模型等方向发表 100+ 篇国际顶会论文。

团队 Google scholar:

https://scholar.google.com/citations?user=5QkHNpkAAAAJ

岗位要求

1. 在国际顶会/顶刊一作发表过论文者优先;

2. 博士优先,有 large language models(LLMs)and multi-modal LLMs 算法相关研究经验者优先;

3. 实习时间至少 6 个月以上,稳定长时间实习者优先。

简历投递

hao.lang@alibaba-inc.com

更多阅读

0998b23f8a9958271aa3e6a3e995bb32.png

44656704ca276141d92fd790750e1450.png

e70df5d29b9d3a6d484dc3c7d3a2fc7c.png

2e17cfd6151a11b5d808eb4c3bbcedf6.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

dfe9e50469f11f9b1242dc00ace4ba73.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

6187f45da01928765ebe4867a13cbeec.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值