尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以全面提升 MLLM 的各种能力仍是一个未知数。
快手,中科院,南大合作从三个层面入手推动 MLLM alignment 的发展,包括数据集,奖励模型以及训练算法,最终的 alignment pipeline 使得不同基础模型在 10 个评估维度,27 个 benchmark 上都取得了一致的性能增益,比较突出的是,基于本文提出的数据集和对齐算法对 LLaVA-ov-7B 模型进行微调后,conversational 能力平均提升了 19.5%,安全性平均提升了 60%。
偏好数据,训练算法,模型以及评估 pipeline 均已全面开源。
该方法在 twitter 上也引起了热议,被评为多模态 alignment 的 game-changers。
📖 arXiv Paper
https://arxiv.org/abs/2502.10391
📊 Training Code
https://github.com/Kwai-YuanQi/MM-RLHF
📝 Homepage
https://mm-rlhf.github.io/
🏆 Reward Model
https://huggingface.co/yifanzhang114/MM-RLHF-Reward-7B-llava-ov-qwen
🔮 MM-RewardBench
https://huggingface.co/datasets/yifanzhang114/MM-RLHF-RewardBench
🔮 MM-SafetyBench
https://github.com/yfzhang114/mmrlhf-eval
📈 Evaluation Suite
https://github.com/yfzhang114/mmrlhf-eval
主要贡献
新数据集:本文引入了一个包含 120k 精细标注的偏好比较对的数据集,包含三个维度的打分,排序,文本描述的具体原因以及平局等标注,所有标注由人类专家完成,一共 50 名标注人员,8 名专家,耗时两个月。与现有资源相比,这一数据集在规模、样本多样性、标注粒度和质量等方面都有显著提升。
创新的奖励模型:提出了基于批评的奖励模型(Critique-Based Reward Model),该模型首先对模型输出进行批评,然后再进行评分。这一方法相比传统的标量奖励机制,提供了更好的可解释性和更有信息量的反馈,基于该方法的模型只需要 7B size,在 reward model benchmark 就明显优于现有公开的 72B-size 的 MLLM。
动态奖励缩放:提出了动态奖励缩放(Dynamic Reward Scaling)方法,通过根据奖励信号调整每个样本的损失权重,优化了高质量比较对的使用,进一步提高了数据的使用效率。
全面评估:本文在 10 个维度和 27 个基准上对提出的方案进行了严格评估,同时构造了一个 reward model 的 benchmark 以及 safety 相关的 benchmark 来弥补现有 benchmark 的不足,结果显示,在各个方面均取得了显著且一致的性能提升。
MM-RLHF 人类偏好数据
数据来源:图像数据来源包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等,总共 10M,视频数据来源主要是 SharedGPT-4-video,安全性相关的数据来源主要包括 VLGuard 和自构造内容。
数据过滤与模型响应生成:通过预定义的多选题,长文本等类别均匀采样,确保少数类也有足够的样本。同时采用了 knn 聚类并采样的策略,保证数据的 diversity。响应生成使用到了 Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet 等最先进的 MLLM。
数据标注:主要包含三个维度,有用性,真实性,伦理性,同时标注人员需要提供打分的依据,最终排名以及排名的依据,标注粒度细,通过专家定期进行质量检查和互动评审保证标注质量。
MM-RLHF 奖励模型
标准奖励模型通常通过预训练的 LLM,并用线性奖励头替换原有头部,以输出一个标量奖励值。然而,这些模型难以充分利用人类注释中的丰富信息,也不具备足够的透明性。
为了解决标准奖励模型的局限性,本文提出了一种基于批评的训练框架。在这个框架中,模型首先生成批评(对响应的分析和评估),然后基于批评来打分。批评生成部分与打分部分共同作用,确保了更细致的评价。
增强注释以提高批评质量:由于人工注释往往简洁且精炼,直接使用它们作为训练目标效果有限。因此,本文通过 GPT-4o 增强人工注释,使其更为详细和流畅,从而提高批评的质量。
在训练过程中,批评的生成与奖励头的训练同时进行,在训练奖励头时采取了 teacher-forcing 的策略,即采用了 ground truth 的批评作为输入,默认损失权重都为 1。测试阶段先生成批评,然后基于批评得出最终得分。
性能评估
该模型框架简单,且在多个基准测试中的表现与 GPT-4o 相媲美,甚至超越了许多开源模型,表现出色,尤其在自定义基准测试中,其表现远超 GPT-4o,这验证了其作为训练算法奖励信号的有效性。
表 4 中也展示了,当奖励头直接使用偏好数据集进行训练时,模型的 ACC+ 稳定在 50% 左右。然而,当引入人工注释作为学习目标时,ACC+ 稳定提升了 5%。进一步通过 GPT-4o 扩展人工注释,生成更加详细和流畅的批评,最终提高了 ACC+ 达 17%。当评估时直接使用人工批评时,ACC 和 ACC+ 均接近 90%,表明评估质量对奖励模型效果的至关重要性。
MM-DPO:有效利用高质量偏好数据
要有效利用 MM-RLHF 中的高质量数据,我们有以下的实验发现和技巧:
MM-DPO 不再仅仅关注“最难的比较对”(即排名差异最大的一对),而是将一个查询下所有可能的响应对都纳入训练。具体来说,对于一个查询 ,如果有多个响应,每一对具有不同排名的响应都被视为一个有效的比较对。这种全面的处理方式可以捕捉更细粒度的排序信息,让模型从更广泛的偏好数据中学习。
然而,这种策略也带来了新的挑战:当响应对的排名差异较小时(例如排名 3 和排名 4 的比较),其奖励差距(reward margin)往往较小,而排名差异较大的响应对(例如排名 1 和排名 4 的比较)包含的信息质量更高。如果对所有样本对一视同仁,会导致高置信度的信息被低效利用。
为了解决这个问题,MM-DPO 引入了动态奖励缩放(Dynamic Reward Scaling)机制,根据奖励差距动态调整更新强度,优先利用高置信度的样本对。具体而言,奖励模型可以自然地为样本对提供奖励差距(reward margin),这为动态控制样本的更新权重提供了一个直接的信号。
本文采用 MM-RLHF-Reward-7B 模型来计算奖励差距 ,其中 和 分别是正样本和负样本的奖励分数。
DPO 中,动态缩放因子 的计算公式如下:
其中: 是初始默认缩放因子; 是一个参数,用于平衡动态部分的贡献; 是一个可调超参数,控制 随着 的变化速度。
接下来只需要将 DPO 算法中的 部分替换为动态的 即可。
MM-DPO 在各类 benchmark 上都表现出了不错的性能增益,而且其对于超参数并不是非常敏感,大多数情况下都能使得高质量 pair 的利用效率得到明显提升。
27个评估标准,10种评估维度的综合评估
主要领域包括图表与文档理解、OCR、幻觉检测、数学推理、通用知识、多模态对话、高分辨率与真实世界应用、视频理解、多图像处理以及多模态安全性。其中,多模态安全性基准 MM-RLHF-SafeBench 是自构建的,涵盖对抗攻击、越狱攻击、隐私保护和有害内容生成等场景,重点评估模型的安全性与鲁棒性。这些数据集为模型的多方面性能提供了详尽的测试环境。
上面两图展示了使用我们的数据集和对齐算法,LLaVA-OV-7B、LLaVA-OV-0.5B 和 InternVL-1B 在不同维度上的对齐表现,其中每个评估维度的得分在相应的基准上进行了平均。
会话能力和安全性的显著提升:实验结果表明,通过对齐过程,这两个方面的表现得到了显著改进,无需调整超参数。在会话基准中,平均提高超过 10%,而不安全行为减少了至少 50%。此外,在 WildsVision 任务中,胜率至少提高了 50%。
在幻觉、数学推理、多图像和视频理解方面的广泛提升:对齐后的模型在这些领域表现出显著的提升。有趣的是,尽管我们的数据集中缺乏专门的多图像数据,模型在多图像任务中的表现依然显著提升。这表明我们数据集的多样性有助于模型在多个维度上进行更好的泛化。
未来可能的研究方向
在本研究中,我们提出了 MM-RLHF,一个高质量、细粒度的数据集,专门用于推动多模态大语言模型(MLLMs)的对齐工作。
与以往专注于特定任务的研究不同,我们的数据集和对齐方法旨在全面提升多个维度的性能。即使在奖励建模和优化算法方面仅进行了初步改进,我们在几乎所有评估基准上都观察到了显著且持续的提升,强调了综合性对齐策略的潜力。
展望未来,我们看到进一步挖掘我们数据集价值的巨大机会。数据集的丰富注释粒度,如每个维度的分数和排名理由,在当前的对齐算法中仍未得到充分利用。未来的工作将重点关注利用这些粒度信息与先进的优化技术,结合高分辨率数据来解决特定基准的局限性,并使用半自动化策略高效地扩展数据集。
我们相信,这些努力不仅将推动 MLLM 对齐到新的高度,还将为更广泛、更具普适性的多模态学习框架奠定基础。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
·