多模态的幻觉诅咒!达摩院新作评估多模态大模型在语言、视觉和音频上的幻觉问题...

f5d33011318a9a211d8fe0a70b62b784.gif

a391b18d83c52b21615f709bc1135f32.png

阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒(CMM),这是首个系统性地研究面向语言,视觉,和音频的多模态大模型(LMMs)幻觉问题的工作,对幻觉问题提供深入的分析和评估方法。

近年来,多模态大模型(LMMs)在人工智能的前沿领域取得了突破性进展,但仍然面临“幻觉”问题,即模型会生成与输入不符的信息。面对这一挑战,学术界提出了多种评价基准以及改进方法,但这些方法大多只关注单一模态(例如图像或视频),缺乏对更多模态参与时幻觉问题的综合分析和评价。

在本文中,我们我们系统性地分析了 LMMs 在最常见的三种模态(语言、视觉、音频)任务中的幻觉表现,揭示了多模态幻觉的两个根本来源:单模态先验依赖过强(Overreliance on Unimodal Priors)以及跨模态间的虚假关联(Spurious Inter-modalities Correlations)。

基于以上发现,我们提出了全新的评价基准——多模态的诅咒(CMM),并且从细粒度的对象和事件层面对幻觉进行诊断。实验显示,CMM 不仅能够揭示现有模型在幻觉防范方面的不足,还可以作为未来多模态学习研究和模型改进的重要指导工具。

efd2f2138e01d54d70c65a2973ed5757.png

论文题目:

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

论文作者:

冷思聪*,邢云*,成泽森*,周阳,张航,李昕,赵德丽,吕时俭,苗春燕,邴立东

作者单位:

阿里巴巴达摩院, 新加坡南洋理工大学, 新加坡A*STAR IHPC

论文链接:

https://arxiv.org/abs/2410.12787

项目主页:

https://cmm-damovl.site

b045aedeaa3dd33905f7f6e9ca0abcdc.png

引言

1.1 背景介绍&研究动机

随着人工智能技术的进步,大规模多模态模型(LMMs)在语言、视觉和音频等多模态信息的融合和理解上表现出色,并在图像,视频,音频理解等领域展现出广泛应用前景。


然而,这些模型在应对复杂、多样的输入时,往往会生成与实际内容不符的“幻觉”输出。幻觉现象不仅影响模型输出的准确性和可靠性,也在某种程度上限制了 LMMs 的实际应用。因此,深入分析和系统性评估 LMMs 在不同模态下的幻觉现象,对于推动多模

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值