本文是LLM系列文章,针对《Unified Hallucination Detection for Multimodal Large Language Models》的翻译。
多模态大型语言模型的统一幻觉检测
摘要
尽管在多模态任务方面取得了重大进展,但多模态大型语言模型(MLLMs)仍受到幻觉这一关键问题的困扰。因此,在MLLMs中可靠地检测这种幻觉已成为模型评估和实际应用部署保障的一个重要方面。先前在这一领域的研究受到了对单一任务的狭隘关注、所涉及的幻觉类别范围不足以及缺乏详细粒度的限制。为了应对这些挑战,我们的工作拓展了幻觉检测的研究视野。我们提出了一种新的元评估基准,MHaluBench,它经过精心制作,有助于评估幻觉检测方法的进展。此外,我们还推出了一种新的统一多模态幻觉检测框架UNIHD,该框架利用一套辅助工具来有力地验证幻觉的发生。我们通过细致的评估和全面的分析,展示了UNIHD的有效性。我们还提供了关于解决各类幻觉的特定工具应用的战略见解。