北京大学提出FakeShield：基于多模态大语言模型的可解释图像篡改检测定位-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

添加微信号：CVer111，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

本文系CVer粉丝投稿｜来源：CVer

随着生成式AI技术的快速发展，图像伪造和篡改变得越来越普遍，在真实性与安全性方面带来挑战。传统的图像伪造检测与定位（IFDL）方法存在检测原理未知和泛化性较差等问题。为了应对这些问题，本文提出了一种全新的任务：可解释的图像伪造检测与定位（e-IFDL），并设计了一个新颖的多模态伪造检测定位框架：FakeShield。如图1所示，与传统IFDL方法相比，FakeShield不仅能检测图像的真实性并生成篡改区域的掩膜，还可以基于像素伪影和图像语义错误等伪造线索提供合理的解释。此外，我们创建了多模态篡改描述数据集MMTD-Set，并结合数据域标签（domain tag）引导的可解释的伪造检测模块DTE-FDM与多模态伪造定位模块MFLM，以实现细粒度伪造检测与定位。实验结果显示，FakeShield在包含多种伪造方法的测试集上，展现了优越的性能以及出色的鲁棒性，泛化性。

图1：(a)传统IFDL方法，(b)可解释的IFDL方法

MMTD-Set数据集构建：如图2所示，我们根据篡改方法，将篡改图片分为PhotoShop、DeepFake、AIGC-Editing三个数据域。基于现有的IFDL数据集，我们利用GPT-4o生成对于篡改图像的分析与描述，构建“图像-掩膜-描述”三元组，以支持模型的多模态训练。另外，针对不同篡改类型，我们设计了特定的描述提示，引导GPT关注不同的像素伪影和语义错误。

图2：MMTD-Set数据集构建过程

FakeShield框架：如图3所示，该框架包括域标签引导的可解释伪造检测模块（Domain Tag-guided Explainable Forgery Detection Module，DTE-FDM）和多模态伪造定位模块（Multi-modal Forgery Localization Module，MFLM）两个关键部分。DTE-FDM负责图像伪造检测与检测结果分析，利用数据域标签（domain tag）弥合不同伪造类型数据之间的数据域冲突，引导多模态大语言模型生成检测结果及判定依据。MFLM则使用DTE-FDM输出的对于篡改区域的描述作为视觉分割模型的Prompt，引导其精确定位篡改区域。

图3：FakeShield框架图

在实验结果方面，我们从检测，定位，解释三个方面来评价FakeShield的效果，其在多个IFDL测试集中表现出优越性能，定量结果如表1，表2，表3所示，定位性能的定性结果如图4所示。

表1：FakeShield与主流IFDL方法的定位性能比较

表2：FakeShield与主流通用MLLM方法的解释性能比较

表3：FakeShield与主流IFDL方法的定位性能比较

图4：FakeShield与主流IFDL方法的定位性能的定性比较

论文信息：

Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang*. FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models. arxiv preprint arxiv:2410.02761, 2024. （*张健为通讯作者）

arxiv链接：https://arxiv.org/abs/2410.02761

论文网站：https://zhipeixu.github.io/projects/FakeShield/

项目网址：https://github.com/zhipeixu/FakeShield

实验室简介：

视觉信息智能学习实验室（VILLA）由张健助理教授于2019年创立并负责，主要围绕“智能可控图像生成”这一前沿领域，深入开展高效图像重建、可控图像生成和精准图像编辑三个关键方向的研究。创立至今已在Nature子刊Communications Engineering、TPAMI、TIP、IJCV、SPM、CVPR、NeurIPS、ICCV、ICLR等高水平国际期刊和会议上发表论文90余篇。近期工作包括无需GT自监督图像重建SCNet、超低采样率单光子压缩共焦显微成像DCCM、图像条件可控生成模型T2I-Adapter、全景视频生成模型360DVD、拖拽式细粒度图像编辑DragonDiffusion/DiffEditor、精确控制视频内容与运动的编辑ReVideo、面向3DGS动态场景重建与理解HiCoM/OpenGaussian、面向3DGS的隐写框架GS-Hider、面向AIGC内容篡改定位与版权保护的水印技术EditGuard/V2A-Mark等，欢迎关注！更多信息可访问VILLA实验室主页（https://villa.jianzhang.tech/）或张健助理教授个人主页（https://jianzhang.tech/）。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer111，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer111，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看