CVPR 2024 | 基于多模态大语言模型的可解释不实信息检测

最新推荐文章于 2025-03-08 10:31:28 发布

小马不会过河

最新推荐文章于 2025-03-08 10:31:28 发布

阅读量2.3k

点赞数 12

文章标签：语言模型人工智能自然语言处理深度学习机器学习区块链大数据

本文链接：https://blog.csdn.net/m0_59163425/article/details/142643387

版权

2024年IEEE/CVF计算机视觉与模式识别大会（CVPR 2024）已于6月17日至6月21日在美国西雅图举行。本文将介绍一篇关于多模态大模型驱动的可解释不实信息检测的CVPR 2024录用论文。

题目：SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

作者：Peng Qi, Zehong Yan, Wynne Hsu, Mong Li Lee

论文链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Qi_SNIFFER_Multimodal_Large_Language_Model_for_Explainable_Out-of-Context_Misinformation_Detection_CVPR_2024_paper.pdf

论文仓库（GitHub）：https://github.com/MischaQI/Sniffer

（点击“阅读原文”可直接跳转）

研究背景

近年来，Deepfake等基于生成式AI的篡改技术因其生成内容的逼真性在加速虚假新闻传播方面产生了巨大的风险，但该技术对于普通造假者来说仍存在一定技术门槛。与之相反，out-of-context multimodal misinformation (简称OOC，脱离上下文的多模态不实信息)，又名Cheapfakes、image repurposing，将原本真实的视觉素材挪用于另外的新闻语境，以形成移花接木之效。这类假新闻因其素材真实、门槛低成为最简单、最普遍的造假方法之一。现有工作往往将检测这类假新闻建模为二分类任务，但仅仅提供一个分类结果并不足以取信于用户，用户不知其所以然，往往达不到辟谣的效果。因此，如何实现可解释的OOC不实信息检测，是当前的一大挑战。

众所周知，多模态大语言模型 (MLLM) 在各种多模态任务中取得了巨大进展。凭借其丰富的世界知识和强大的视觉推理及生成能力，MLLM有潜力检测出图像-文本对中的事实不一致，并生成连贯的、基于自然语言的解释。然而，我们的初步实验结果却显示，将现有的 MLLM 应用于 OOC 不实信息检测任务并非易事。一方面，经过我们对BLIP2、LLaVA这类开源多模态大模型进行测试，发现其输出不太受控，例如未能遵循用户指令、产生幻觉为图片编造一个上下文等（详见补充材料）。我们分析这可能是由于MLLM 的训练语料与OOC样本的巨大差异导致的。像 image caption, vqa等经典的多模态任务，图文往往描述了相同的事件，在OOC 假新闻中则恰恰相反。因此，MLLM很难脱离原有的图文一致的假设去回答问题。另一方面，图片这类特殊的信息载体往往只能传递一部分信息，而非事件的全貌，这就导致仅靠图片内容本身无法区分来自哪个事件；而原生的MLLM也缺少追查图片来源的能力。为此，我们设计了一个任务专用的MLLM，SNIFFER，来解决这些问题。

图1 OOC不实信息及SNIFFER模型输出示例

研究方法

1. 两阶段微调

首先，我们观察到通用MLLM倾向于用粗粒度的名词来回答问题，像person、woman、man等，但OOC检测任务需要具体的实体名称才能判断图文不一致性。因此，我们首先做了一个新闻领域的概念对齐。这里主要是用image caption的任务形式组织数据进行了训练，370k样本训练1个epoch，耗时约3小时。

其次，我们在OOC检测这一具体任务上进行了微调。这一步的主要挑战在于缺乏包含解释的监督数据。在我们开展研究时，GPT-4V尚未发布，开源模型效果又不好，所以我们想了一个曲线救国的方法。对于cap1和img2组成的OOC样本，调用ChatGPT分析cap1和img2所对应的cap2的多处不一致，然后挑选最可能体现在图片上的一处作为ground truth，填入到我们给定的模版中形成解释。这里我们主要关注三个关键信息点：图文不一致的实体类型（如，人物、地点、事件等），以及在cap1及img2中呈现的具体实体名称。这样虽然会有点误差，但基本还是准确的。得到这部分数据后我们对模型进行了第二阶段的训练，71k 样本训练10个epoch，耗时13小时。

通过这两步训练，实现了MLLM从通用任务 -> 新闻领域 -> OOC任务的转换。

图2 训练过程

2. 三步推理

为了解决现有MLLM无法追溯图片来源的问题，我们提出了一个三步的推理框架：

Internal checking，用于判断图文内容的一致性（蓝色线条）。考虑到现有MLLM的视觉实体识别能力有限，我们调用了Google Vision API检测图片中的视觉实体作为补充。
External checking，用于判断图片原始上下文和当前文本的相关性（橘色线条）。同理，我们调用外部工具对图片进行逆向检索获取其原始上下文作为Evidence，再将其同当前文本进行比较。
Composed reasoning，用于结合前两步的推理结果（黑色线条），产生最终判断及解释。

图3 推理框架

实验评测

由于我们的目标是实现可解释的OOC检测，因此我们分别对检测的准确性、解释的准确性及说服力进行了评测。

1. 检测准确性

表1证明了SNIFFER与其他baseline方法相比的优越性。

表1 主实验结果

表2展示了消融实验的结果：

第一行展示了InstructBLIP zero-shot的检测结果，整体的准确度为47.4%，甚至差于随机分类；fake类别的recall仅为4.6%，这说明并不具备检测图文不一致的能力，符合我们之前的观察。
OOC Tuning将检测准确率从49.3%提升到了82.5%，提升超过35个点，说明通过微调确实可以使模型理解任务的逻辑。
倒数第二行展示了仅用external checking就能达到不错的检测效果(84.5%)，但是real类的recall很低 (76%)，这说明即便是真实新闻也可能没有相关证据支持。更为重要的一点是，在我们的实验数据集中，只有60%的数据能够检索到外部证据，因此该步骤往往不能独立使用。

表2 消融实验结果

在GPT-4V发布之后，我们随机采样了400条数据，对比了SNIFFER和GPT-4V的效果（表3）。可以看到在检测准确率上SNIFFER模型比GPT-4V高了11个点，这说明在特定任务上实验室级别的模型也可以打败工业界大模型。另外，我们也分析了GPT-4V和SNIFFER行为模式的差异，感兴趣的同学可以查看论文附录。

表3 与GPT-4V的对比结果

2. 解释准确性及说服力

准确性上，我们主要关注之前instruction data模版中指定的三个信息点：不一致的实体类型、对应的文本实体以及视觉实体：

图4展示了模型训练不同阶段的response ratio的变化。可以看到，在经过OOC Tuning以后，回答率明显变低，这说明模型变得保守了。
图5展示了这三个信息点的准确率变化。可以看到所有衡量指标都是上升趋势，说明模型的解释能力是逐步提升的。

图4：Response Ratio 图5：Explanation Accuracy

说服性上，我们邀请了10位志愿者进行人工评测。每位志愿者会查看20条OOC样本，记录其真实性判断（真，假）以及自信程度（无，有点，高）；进一步查看SNIFFER生成的判断及解释，再次记录真实性判断及自信程度。图6外环展示了用户的初始判断结果，可以发现69%的数据点（蓝色）被成功检测为假，剩余31%（红色）则被错误检测为真。内环展示了用户在阅读SNIFFER输出之后的态度变化：对于之前判错的数据（红色），87%被成功校正为假；对于之前判对的数据（蓝色），42%数据点的自信程度有所提升。这也证实了SNIFFER解释在说服用户上的显著作用。

图6 人工评测结果

总结

在对抗假新闻这一研究方向上，大量工作都围绕如何自动检测假新闻展开。然而光有准确度是不够的，惟有提供说服性的解释，才能实现更好的辟谣效果以及人机协同的假新闻防治。在检测方法日益成熟的当下，检测的可解释性或许是一个值得关注的研究点。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述