论文地址:https://arxiv.org/abs/2403.03627
1.概述
互联网中的虚假信息是一个重大挑战,尤其是涉及多模态声明的虚假信息,这些声明结合了文本、图像、视频和其他媒体类型。在这些情况下,视觉组件可能被操纵或用于使虚假声明脱离上下文。事实核查员和他们使用的工具需要能够处理多种模式。大语言模型(LLMs)存储了超出任何个人所能掌握的广泛信息,并且比任何搜索引擎都更具人性化。因此,它们可以成为事实核查员的强大工具,后者经常需要额外的事实知识来验证声明。LLMs 在事实核查中的应用已在仅文本设置中得到广泛研究,其中模型接收文本声明(有或没有一组证据文档)作为输入,并需要推理以确定声明的真实性。然而,这种流水线方法需要额外的证据检索步骤,这既计算量大又容易出错,同时忽略了 LLMs 参数中存储的大量知识。
我们假设,训练有素的多模态大语言模型(MLLMs)可以作为证据检索的有效替代,并以无证据方式执行事实核查,即仅依赖其参数知识。尽管前景广阔,但 MLLMs 也有局限性,特别是在事实性方面。模型可能会产生幻觉并且缺乏知识或表现出偏差。