Unified Hallucination Detection for Multimodal Large Language Models

828 篇文章 3 订阅

已下架不支持订阅

78 篇文章 1 订阅
26 篇文章 0 订阅
本文提出了一种新的元评估基准MHaluBench和统一多模态幻觉检测框架UNIHD,用于解决多模态大型语言模型(MLLMs)中的幻觉问题。UNIHD通过外部工具和理由验证有效检测幻觉,提高了在图像到文本和文本到图像生成任务中的性能。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《Unified Hallucination Detection for Multimodal Large Language Models》的翻译。

摘要

尽管在多模态任务方面取得了重大进展,但多模态大型语言模型(MLLMs)仍受到幻觉这一关键问题的困扰。因此,在MLLMs中可靠地检测这种幻觉已成为模型评估和实际应用部署保障的一个重要方面。先前在这一领域的研究受到了对单一任务的狭隘关注、所涉及的幻觉类别范围不足以及缺乏详细粒度的限制。为了应对这些挑战,我们的工作拓展了幻觉检测的研究视野。我们提出了一种新的元评估基准,MHaluBench,它经过精心制作,有助于评估幻觉检测方法的进展。此外,我们还推出了一种新的统一多模态幻觉检测框架UNIHD,该框架利用一套辅助工具来有力地验证幻觉的发生。我们通过细致的评估和全面的分析,展示了UNIHD的有效性。我们还提供了关于解决各类幻觉的特定工具应用的战略见解。

1 引言

2 前言

3 MHaluBench的构造

4 UNIHD:MLLMs的统一幻觉检测框架

5 实验

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值