无需人工/GPT-4V排序,针对多模态大模型的全自动多级偏好学习

6ddc554f3234b62088d2f792b3dadc2d.gif

©PaperWeekly 原创 · 作者吴文灏

单位 | 悉尼大学博士生

研究方向 | 多模态学习、视频理解

前段时间分享了我们在多模态大模型(MLLM)视觉信号利用方面的思考:Dense Connector,今天想和大家分享一下我们在另一个正交维度的探索:在 MLLM 的人类反馈强化学习(RLHF)方面的思考,以下分享内容由一作小学弟张梦溪和我共同完成。

6140144f559edb6ceff4c28d2e42b4a4.png

论文题目:

Automated Multi-level Preference for MLLMs

论文链接:

https://arxiv.org/pdf/2405.11165

代码链接:

https://github.com/takomc/amp

c4963395dc547246a43fbf2c178569e0.png

简介

由于不同模态之间潜在的误对齐,多模态大模型 (MLLMs) 一直被“幻觉”问题所困扰。这里的幻觉指的是模型的回答与图像内容不符的部分。一些前人的探索(例如 LLaVA-RLHF,RLHF-V)等利用了基于强化学习的人类偏好对齐(Reinforcement Learning from Human Feedback,RLHF)。

这些工作证明了 RLHF 是一种解决幻觉的方案。于是,我们也沿用了 RLHF 的思想。在做这个工作之前,我们对于 MLLM 的幻觉,尤其是与 LLM 幻觉的区别进行了思考。LLM 的模态仅限于文本,因此 LLM 的回答会更加开放。

然而,MLLM 由于输入图像的限制,其幻觉也是更加细粒度的。那么,一个直观的问题:当好回答和坏回答的区别过大时,一次好回答和坏回答的比较足够让 MLLM 改正所有的幻觉部分么? 

在 Automated Multi-level Preference for MLLMs 一文中,我们阐述了相比于 binary-level preference 框架,multi-level preference 框架的优势所在(如下图)。首先,多等级偏好的框架减小了相邻层级(adjacent levels)回答的 gap,能够让 MLLM 感知到不同回答间细小的区别。


另外,跨等级(cross-level)的比较会给最好的回答A提供更多的负样本,从而让回答 A 尽可能远离坏回答。基于这些思考,我们提出了一个无需人工/GPT-4V 排序,完全自动化的多等级偏好学习(Automated Multi-level Preference, AMP)的框架。同时也提出了一个新的多轮对话幻觉 benchmark MRHal-Bench。

17a33cff3777dba3075558238c0723db.png

ab51ac009a6e003659dc7f3acbdd5a5d.png

多等级偏好学习的难点

1. 数据层面

先前的研究为了得到偏好数据集,会对不同的回答进行人工标注,这种方案对于 binary-level 是可行的,但对于 K-Level 来说,标注人员需要进行 K(K-1)/2 次。如果 K=5,那么就需要进行 10 次比较,这种标注方式成本是非常高的。

另外,无论是人工,还是 GPT-4V 标注,排序数据集都会存在较大的噪声。我们将一批含有三份不同的回答 (A,B,C) 的数据集交给标注人员和 GPT-4V 进行两两比较 (A&B,A&C,B&C)。令人惊讶的是,人工/GPT-4V 比较都会产生一种矛盾现象 (A>B,B>C,C>A),且这种现象的比例为 14%/11%。这个现象证明了人工/GPT-4V 标注的多排序偏好数据集是存在较大噪声的,这些错误的排序显然会干扰偏好学习。

2. 方法层面

如上面我们分析的一样,多等级的偏好学习有着天然的优势。然而,多等级的偏好学习更加复杂,如何设计一个有效的优化目标也是一个难点。

6683097b020163834d86a7c76403a8af.png

我们的方案

1. 自动化的数据生成和校验

数据生成

偏好数据集要遵循两个原则。第一,不同回答的排序关系在大部分情况下要准确。第二,不同回答的语言风格要接近,否则就会导致 reward hacking 和优化低效。那么,我们如何构建一个初始的多等级偏好数据集呢? 

根据 Scaling Law,不同大小的模型,或者是训练集大小都会影响模型的性能,根据这两个原则,都会有天然的偏好数据集。 

I. 模型大小视角 (Multi-expert Generation, MEG):我们利用同一系列的模型:LLaVA-2B, 7B, 13B, 34B。这 4 种模型产生的回答再和数据集本身有的标准回答,一共构成了 5 份不同的回答。 

II. 不同数据集大小视角 (Incremental Generation, IG)

首先,我们将一个大型数据集 分为 部分,利用 个子集 训练得到 个模型。那么,连同最开始的预训练模型以及数据集自身的标准回答,我们一共得到了 份不同的回答,相应伪代码如图所示。

e5e8e073c3668d1060ea59712b16b126.png

▲ K级偏好数据集生成伪代码

自动校验

我们利用两种方案得到了初始的多排序数据集。为了进一步优化数据集的排序关系,受 KOSMOS-2 的启发,我们提出了自动检验机制。通过分析句子依存关系,以及相似度计算,来衡量一份回答的好坏,具体细节请参考论文。

2. 多等级偏好学习的优化目标 (MDPO)

原始 DPO 算法的优化目标为:

dda2afef00f4bcd9814abe78e5dd0f8e.png

其中, 为待优化模型和基础模型 (base model), 为好回答和坏回答。

我们首先将原始 DPO 改为:

e715cdbfc3b18cf169e3bfae8e5eb8a4.png

但是,我们在实验过程中发现了一个有趣的现象,训练得到的模型会输出一个重复的词或者是短语。这是由于训练过程中好回答和坏回答的概率同时下降。尽管坏回答的下降速度更快,总体 Loss 也在下降,但是模型⽣成好回答的能⼒也得到了缩减,因此我们引入了一个惩罚项来拉大生成好回答的概率:

5434dd56cb9268a063c7f028916f5395.png

注意我们仅针对于最好的回答引入惩罚项,其余回答都是正常的 DPO 形式,那么,最终的 MDPO 形式为:

2ab9d12a6eed7d99d600405f8b4e851f.png

07b9e223b4da43f72d303e33e33f1dec.png

实验结果

1. 在多个幻觉benchmark上的表现

我们在 MMHal-Bench,MRHal-Bench(我们建立的第一个多轮对话幻觉benchmark),LLaVA-Bench,以及 POPE 等经典幻觉 benchmark 上与通用 MLLM 和其它 RLHF 方法进行了比较,可以看到我们的方法有着显著提升。

b49c3c57e6f3ad195e5d3a2ab047eb36.png

ac05461f71f8ad24c652323c9f19da30.png

2. 消融实验

为了验证减小相邻层级 gap 和跨层级比较的效果,我们进行了几组消融实验。

5421e117af5b9b09c380701f7b7c7242.png

可以看到,减小相邻层级 gap 会提升模型性能。甚至在一些特殊情况下 (A>C--B>C),减小 gap 的好处竟然大于降低好回答质量带来的影响。另外,跨层级的比较带来了进一步的性能提升。

9b89001581444a79cb391cb7a839f804.png

当下RLHF可能存在的一些局限性

尽管 RLHF 可以降低 MLLM 的幻觉现象,还有一些问题值得继续深入研究: 

1. RLHF 的表现会受好回答的限制:如果好回答中仍然存在幻觉,那么优化后的 MLLM 大概率还是会有幻觉。除此之外,一些好回答只是回答正确了,在细粒度 (Informativeness),对于用户的帮助性 (Helpfulness) 上未必是最好的,这一点也影响着 MLLM 的最终性能。 

2. RLHF 会降低 MLLM 的泛化性:RLHF 的数据比起 instruction tuning 的数据要小很多,有可能会导致一定程度上的灾难性遗忘。除此之外,相比于有监督中交叉熵范式,RLHF 的显性拉大好回答的概率范式会降低大模型的涌现能力。因此,平衡偏好学习和泛化性也是一个需要解决的问题。

更多阅读

e3a177d3cc0ad3d4490da6705946aa4e.png

4a2f277f36a5e847a789dc7d7d57a13d.png

88e021f9ba464b420427fecb80e3c190.png

9a14b7ce2f74b50299750969845f74f0.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

f4247904a3ad98337c2885886369fa40.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

·

571c8c674bd1c1c9ed100e1f47949aa4.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值