阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒(CMM),这是首个系统性地研究面向语言,视觉,和音频的多模态大模型(LMMs)幻觉问题的工作,对幻觉问题提供深入的分析和评估方法。
近年来,多模态大模型(LMMs)在人工智能的前沿领域取得了突破性进展,但仍然面临“幻觉”问题,即模型会生成与输入不符的信息。面对这一挑战,学术界提出了多种评价基准以及改进方法,但这些方法大多只关注单一模态(例如图像或视频),缺乏对更多模态参与时幻觉问题的综合分析和评价。
在本文中,我们我们系统性地分析了 LMMs 在最常见的三种模态(语言、视觉、音频)任务中的幻觉表现,揭示了多模态幻觉的两个根本来源:单模态先验依赖过强(Overreliance on Unimodal Priors)以及跨模态间的虚假关联(Spurious Inter-modalities Correlations)。
基于以上发现,我们提出了全新的评价基准——多模态的诅咒(CMM),并且从细粒度的对象和事件层面对幻觉进行诊断。实验显示,CMM 不仅能够揭示现有模型在幻觉防范方面的不足,还可以作为未来多模态学习研究和模型改进的重要指导工具。
论文题目:
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
论文作者:
冷思聪*,邢云*,成泽森*,周阳,张航,李昕,赵德丽,吕时俭,苗春燕,邴立东
作者单位:
阿里巴巴达摩院, 新加坡南洋理工大学, 新加坡A*STAR IHPC
论文链接:
https://arxiv.org/abs/2410.12787
项目主页:
https://cmm-damovl.site
引言
1.1 背景介绍&研究动机
随着人工智能技术的进步,大规模多模态模型(LMMs)在语言、视觉和音频等多模态信息的融合和理解上表现出色,并在图像,视频,音频理解等领域展现出广泛应用前景。
然而,这些模型在应对复杂、多样的输入时,往往会生成与实际内容不符的“幻觉”输出。幻觉现象不仅影响模型输出的准确性和可靠性,也在某种程度上限制了 LMMs 的实际应用。因此,深入分析和系统性评估 LMMs 在不同模态下的幻觉现象,对于推动多模