无需人工/GPT-4V排序，针对多模态大模型的全自动多级偏好学习

最新推荐文章于 2025-06-04 20:04:40 发布

PaperWeekly

最新推荐文章于 2025-06-04 20:04:40 发布

阅读量209

点赞数

文章标签：学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247677801&idx=2&sn=6b72f8c54fd15e3ab126548de7e9d386&chksm=97626860a27ac0dde6f9ad225c86cc77a778fc002c2582dd98d784f2ddf6799e058478b556a4&scene=126&sessionid=0

版权

©PaperWeekly 原创 · 作者 | 吴文灏

单位 | 悉尼大学博士生

研究方向 | 多模态学习、视频理解

前段时间分享了我们在多模态大模型（MLLM）视觉信号利用方面的思考：Dense Connector，今天想和大家分享一下我们在另一个正交维度的探索：在 MLLM 的人类反馈强化学习（RLHF）方面的思考，以下分享内容由一作小学弟张梦溪和我共同完成。

论文题目：

Automated Multi-level Preference for MLLMs

论文链接：

https://arxiv.org/pdf/2405.11165

代码链接：

https://github.com/takomc/amp

简介

由于不同模态之间潜在的误对齐，多模态大模型 (MLLMs) 一直被“幻觉”问题所困扰。这里的幻觉指的是模型的回答与图像内容不符的部分。一些前人的探索（例如 LLaVA-RLHF，RLHF-V）等利用了基于强化学习的人类偏好对齐（Reinforcement Learning from Human Feedback，RLHF）。

这些工作证明了 RLHF 是一种解决幻觉的方案。于是，我们也沿用了 RLHF 的思想。在做这个工作之前，我们对于 MLLM 的幻觉，尤其是与 LLM 幻觉的区别进行了思考。LLM 的模态仅限于文本，因此 LLM 的回答会更加开放。

然而，MLLM 由于输入图像的限制，其幻觉也是更加细粒度的。那么，一个直观的问题：当好回答和坏回答的区别过大时，一次好回答和坏回答的比较足够让 MLLM 改正所有的幻觉部分么？

在 Automated Multi-level Preference for MLLMs 一文中，我们阐述了相比于 binary-level preference 框架，multi-level preference 框架的优势所在（如下图）。首先，多等级偏好的框架减小了相邻层级（adjacent levels）回答的 gap，能够让 MLLM 感知到不同回答间细小的区别。

另外，跨等级（cross-level）的比较会给最好的回答A提供更多的负样本，从而让回答 A 尽可能远离坏回答。基于这些思考，我们提出了一个无需人工/GPT-4V 排序，完全自动化的多等级偏好学习（Automated Multi-level Preference, AMP）的框架。同时也提出了一个新的多轮对话幻觉 benchmark MRHal-Bench。

多等级偏好学习的难点

1. 数据层面

先前的研究为了得到偏好数据集，会对不同的回答进行人工标注，这种方案对于 binary-level 是可行的，但对于 K-Level 来说，标注人员需要进行 K(K-1)/2 次。如果 K=5，那么就需要进行 10 次比较，这种标注方式成本是非常高的。

另外，无论是人工，还是 GPT-4V 标注，排序数据集都会存在较大的噪声。我们将一批含有三份不同的回答 (A,B,C) 的数据集交给标注人员和 GPT-4V 进行两两比较 (A&B,A&C,B&C)。令人惊讶的是，人工/GPT-4V 比较都会产生一种矛盾现象 (A>B,B>C,C>A)，且这种现象的比例为 14%/11%。这个现象证明了人工/GPT-4V 标注的多排序偏好数据集是存在较大噪声的，这些错误的排序显然会干扰偏好学习。

2. 方法层面

如上面我们分析的一样，多等级的偏好学习有着天然的优势。然而，多等级的偏好学习更加复杂，如何设计一个有效的优化目标也是一个难点。

我们的方案

1. 自动化的数据生成和校验

数据生成

偏好数据集要遵循两个原则。第一，不同回答的排序关系在大部分情况下要准确。第二，不同回答的语言风格要接近，否则就会导致 reward hacking 和优化低效。那么，我们如何构建一个初始的多等级偏好数据集呢？

根据 Scaling Law，不同大小的模型，或者是训练集大小都会影响模型的性能，根据这两个原则，都会有天然的偏好数据集。

I. 模型大小视角 (Multi-expert Generation, MEG)：我们利用同一系列的模型：LLaVA-2B, 7B, 13B, 34B。这 4 种模型产生的回答再和数据集本身有的标准回答，一共构成了 5 份不同的回答。

II. 不同数据集大小视角 (Incremental Generation, IG)

首先，我们将一个大型数据集分为部分，利用个子集训练得到个模型。那么，连同最开始的预训练模型以及数据集自身的标准回答，我们一共得到了份不同的回答，相应伪代码如图所示。

▲ K级偏好数据集生成伪代码

自动校验

我们利用两种方案得到了初始的多排序数据集。为了进一步优化数据集的排序关系，受 KOSMOS-2 的启发，我们提出了自动检验机制。通过分析句子依存关系，以及相似度计算，来衡量一份回答的好坏，具体细节请参考论文。

2. 多等级偏好学习的优化目标 (MDPO)

原始 DPO 算法的优化目标为：

其中，为待优化模型和基础模型 (base model), 为好回答和坏回答。

我们首先将原始 DPO 改为：

但是，我们在实验过程中发现了一个有趣的现象，训练得到的模型会输出一个重复的词或者是短语。这是由于训练过程中好回答和坏回答的概率同时下降。尽管坏回答的下降速度更快，总体 Loss 也在下降，但是模型⽣成好回答的能⼒也得到了缩减，因此我们引入了一个惩罚项来拉大生成好回答的概率：

注意我们仅针对于最好的回答引入惩罚项，其余回答都是正常的 DPO 形式，那么，最终的 MDPO 形式为：

实验结果

1. 在多个幻觉benchmark上的表现

我们在 MMHal-Bench，MRHal-Bench（我们建立的第一个多轮对话幻觉benchmark），LLaVA-Bench，以及 POPE 等经典幻觉 benchmark 上与通用 MLLM 和其它 RLHF 方法进行了比较，可以看到我们的方法有着显著提升。

2. 消融实验

为了验证减小相邻层级 gap 和跨层级比较的效果，我们进行了几组消融实验。

可以看到，减小相邻层级 gap 会提升模型性能。甚至在一些特殊情况下 (A>C--B>C)，减小 gap 的好处竟然大于降低好回答质量带来的影响。另外，跨层级的比较带来了进一步的性能提升。

当下RLHF可能存在的一些局限性

尽管 RLHF 可以降低 MLLM 的幻觉现象，还有一些问题值得继续深入研究：

1. RLHF 的表现会受好回答的限制：如果好回答中仍然存在幻觉，那么优化后的 MLLM 大概率还是会有幻觉。除此之外，一些好回答只是回答正确了，在细粒度 (Informativeness)，对于用户的帮助性 (Helpfulness) 上未必是最好的，这一点也影响着 MLLM 的最终性能。

2. RLHF 会降低 MLLM 的泛化性：RLHF 的数据比起 instruction tuning 的数据要小很多，有可能会导致一定程度上的灾难性遗忘。除此之外，相比于有监督中交叉熵范式，RLHF 的显性拉大好回答的概率范式会降低大模型的涌现能力。因此，平衡偏好学习和泛化性也是一个需要解决的问题。

更多阅读