CVPR 2024 | 基于多模态大语言模型的可解释不实信息检测

2024年IEEE/CVF计算机视觉与模式识别大会(CVPR 2024)已于6月17日至6月21日在美国西雅图举行。本文将介绍一篇关于多模态大模型驱动的可解释不实信息检测的CVPR 2024录用论文。

题目:SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection

作者:Peng Qi, Zehong Yan, Wynne Hsu, Mong Li Lee

论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Qi_SNIFFER_Multimodal_Large_Language_Model_for_Explainable_Out-of-Context_Misinformation_Detection_CVPR_2024_paper.pdf

论文仓库(GitHub):https://github.com/MischaQI/Sniffer

(点击“阅读原文”可直接跳转)

研究背景

近年来,Deepfake等基于生成式AI的篡改技术因其生成内容的逼真性在加速虚假新闻传播方面产生了巨大的风险,但该技术对于普通造假者来说仍存在一定技术门槛。与之相反,out-of-context multimodal misinformation (简称OOC,脱离上下文的多模态不实信息),又名Cheapfakes、image repurposing,将原本真实的视觉素材挪用于另外的新闻语境,以形成移花接木之效。这类假新闻因其素材真实、门槛低成为最简单、最普遍的造假方法之一。现有工作往往将检测这类假新闻建模为二分类任务,但仅仅提供一个分类结果并不足以取信于用户,用户不知其所以然,往往达不到辟谣的效果。因此,如何实现可解释的OOC不实信息检测,是当前的一大挑战。

众所周知,多模态大语言模型 (MLLM) 在各种多模态任务中取得了巨大进展。凭借其丰富的世界知识和强大的视觉推理及生成能力,MLLM有潜力检测出图像-文本对中的事实不一致,并生成连贯的、基于自然语言的解释。然而,我们的初步实验结果却显示,将现有的 MLLM 应用于 OOC 不实信息检测任务并非易事。一方面,经过我们对BLIP2、LLaVA这类开源多模态大模型进行测试,发现其输出不太受控,例如未能遵循用户指令、产生幻觉为图片编造一个上下文等(详见补充材料)。我们分析这可能是由于MLLM 的训练语料与OOC样本的巨大差异导致的。像 image caption, vqa等经典的多模态任务,图文往往描述了相同的事件,在OOC 假新闻中则恰恰相反。因此,MLLM很难脱离原有的图文一致的假设去回答问题。另一方面,图片这类特殊的信息载体往往只能传递一部分信息,而非事件的全貌,这就导致仅靠图片内容本身无法区分来自哪个事件;而原生的MLLM也缺少追查图片来源的能力。为此,我们设计了一个任务专用的MLLM,SNIFFER,来解决这些问题。

图1 OOC不实信息及SNIFFER模型输出示例

研究方法

1. 两阶段微调

首先,我们观察到通用MLLM倾向于用粗粒度的名词来回答问题,像person、woman、man等,但OOC检测任务需要具体的实体名称才能判断图文不一致性。因此,我们首先做了一个新闻领域的概念对齐。这里主要是用image caption的任务形式组织数据进行了训练,370k样本训练1个epoch,耗时约3小时。

其次,我们在OOC检测这一具体任务上进行了微调。这一步的主要挑战在于缺乏包含解释的监督数据。在我们开展研究时,GPT-4V尚未发布,开源模型效果又不好,所以我们想了一个曲线救国的方法。对于cap1和img2组成的OOC样本,调用ChatGPT分析cap1和img2所对应的cap2的多处不一致,然后挑选最可能体现在图片上的一处作为ground truth,填入到我们给定的模版中形成解释。这里我们主要关注三个关键信息点:图文不一致的实体类型(如,人物、地点、事件等),以及在cap1及img2中呈现的具体实体名称。这样虽然会有点误差,但基本还是准确的。得到这部分数据后我们对模型进行了第二阶段的训练,71k 样本训练10个epoch,耗时13小时。

通过这两步训练,实现了MLLM从通用任务 -> 新闻领域 -> OOC任务的转换。

图2 训练过程

2. 三步推理

为了解决现有MLLM无法追溯图片来源的问题,我们提出了一个三步的推理框架:

  1. Internal checking,用于判断图文内容的一致性(蓝色线条)。考虑到现有MLLM的视觉实体识别能力有限,我们调用了Google Vision API检测图片中的视觉实体作为补充。

  2. External checking,用于判断图片原始上下文和当前文本的相关性(橘色线条)。同理,我们调用外部工具对图片进行逆向检索获取其原始上下文作为Evidence,再将其同当前文本进行比较。

  3. Composed reasoning,用于结合前两步的推理结果(黑色线条),产生最终判断及解释。

图3 推理框架

实验评测

由于我们的目标是实现可解释的OOC检测,因此我们分别对检测的准确性、解释的准确性及说服力进行了评测。

1. 检测准确性

表1证明了SNIFFER与其他baseline方法相比的优越性。

表1 主实验结果

表2展示了消融实验的结果:

  • 第一行展示了InstructBLIP zero-shot的检测结果,整体的准确度为47.4%,甚至差于随机分类;fake类别的recall仅为4.6%, 这说明并不具备检测图文不一致的能力,符合我们之前的观察。

  • OOC Tuning将检测准确率从49.3%提升到了82.5%,提升超过35个点,说明通过微调确实可以使模型理解任务的逻辑。

  • 倒数第二行展示了仅用external checking就能达到不错的检测效果(84.5%),但是real类的recall很低 (76%),这说明即便是真实新闻也可能没有相关证据支持。更为重要的一点是,在我们的实验数据集中,只有60%的数据能够检索到外部证据,因此该步骤往往不能独立使用。

表2 消融实验结果

在GPT-4V发布之后,我们随机采样了400条数据,对比了SNIFFER和GPT-4V的效果(表3)。可以看到在检测准确率上SNIFFER模型比GPT-4V高了11个点,这说明在特定任务上实验室级别的模型也可以打败工业界大模型。另外,我们也分析了GPT-4V和SNIFFER行为模式的差异,感兴趣的同学可以查看论文附录。

表3 与GPT-4V的对比结果

2. 解释准确性及说服力

准确性上,我们主要关注之前instruction data模版中指定的三个信息点:不一致的实体类型、对应的文本实体以及视觉实体:

  • 图4展示了模型训练不同阶段的response ratio的变化。可以看到,在经过OOC Tuning以后,回答率明显变低,这说明模型变得保守了。

  • 图5展示了这三个信息点的准确率变化。可以看到所有衡量指标都是上升趋势,说明模型的解释能力是逐步提升的。

图4:Response Ratio 图5:Explanation Accuracy

说服性上,我们邀请了10位志愿者进行人工评测。每位志愿者会查看20条OOC样本,记录其真实性判断(真,假)以及自信程度(无,有点,高);进一步查看SNIFFER生成的判断及解释,再次记录真实性判断及自信程度。图6外环展示了用户的初始判断结果,可以发现69%的数据点(蓝色)被成功检测为假,剩余31%(红色)则被错误检测为真。内环展示了用户在阅读SNIFFER输出之后的态度变化:对于之前判错的数据(红色),87%被成功校正为假;对于之前判对的数据(蓝色),42%数据点的自信程度有所提升。这也证实了SNIFFER解释在说服用户上的显著作用。

图6 人工评测结果

总结

在对抗假新闻这一研究方向上,大量工作都围绕如何自动检测假新闻展开。然而光有准确度是不够的,惟有提供说服性的解释,才能实现更好的辟谣效果以及人机协同的假新闻防治。在检测方法日益成熟的当下,检测的可解释性或许是一个值得关注的研究点。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值