多模态的幻觉诅咒！达摩院新作评估多模态大模型在语言、视觉和音频上的幻觉问题...-CSDN博客

本文链接：https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/143450681

阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒（CMM），这是首个系统性地研究面向语言，视觉，和音频的多模态大模型（LMMs）幻觉问题的工作，对幻觉问题提供深入的分析和评估方法。

近年来，多模态大模型（LMMs）在人工智能的前沿领域取得了突破性进展，但仍然面临“幻觉”问题，即模型会生成与输入不符的信息。面对这一挑战，学术界提出了多种评价基准以及改进方法，但这些方法大多只关注单一模态（例如图像或视频），缺乏对更多模态参与时幻觉问题的综合分析和评价。

在本文中，我们我们系统性地分析了 LMMs 在最常见的三种模态（语言、视觉、音频）任务中的幻觉表现，揭示了多模态幻觉的两个根本来源：单模态先验依赖过强（Overreliance on Unimodal Priors）以及跨模态间的虚假关联（Spurious Inter-modalities Correlations）。

基于以上发现，我们提出了全新的评价基准——多模态的诅咒（CMM），并且从细粒度的对象和事件层面对幻觉进行诊断。实验显示，CMM 不仅能够揭示现有模型在幻觉防范方面的不足，还可以作为未来多模态学习研究和模型改进的重要指导工具。