AAAI 2025 | 开放世界的深伪检测！北交大提出ODDN：创新的深伪检测任务和模型

最新推荐文章于 2025-05-16 14:05:46 发布

Amusi（CVer）

最新推荐文章于 2025-05-16 14:05:46 发布

阅读量314

点赞数

文章标签：人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247613133&idx=3&sn=40c7de337a0b00296bd37d53a92c0330&chksm=f8f90dabc770dd2648d5453db47340a5275eaa6dda0f7f872ddb7265f2735c140b6974798adb&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信：CVer2233，助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪必备！

转载自：机器之心

现有的深伪检测方法大多依赖于配对数据，即一张压缩图像和其对应的原始图像来训练模型，这在许多实际的开放环境中并不适用。尤其是在社交媒体等开放网络环境（OSN）中，图像通常经过多种压缩处理，导致图像质量受到影响，深伪识别也因此变得异常困难。

现有方法虽然在特定条件下取得了一些进展，但在面对开放世界中大量无配对数据的挑战时，往往难以提供理想的检测效果。

近日，AAAI 2025 接收结果公布，收录了一篇北京交通大学赵耀、陶仁帅团队联合苏黎世联邦理工学院的研究工作，论文题目为《ODDN：Addressing Unpaired Data Challenges in Open-World Deepfake Detection on Online Social Networks》。

该工作提出了一个创新的深伪检测任务——非配对数据下的开放世界深伪检测。该任务针对真实社交媒体检测场景下配对数据在实际获取中数量较少的窘境。

论文地址：https://arxiv.org/pdf/2410.18687

此外，该工作还提出了针对新任务下的新方法，即使用多任务学习、梯度取反、梯度矫正等方式，提出 Backbone 提取特征中与压缩相关的信息，令模型关注生成模型产生的伪造特征，为处理真实社交媒体下的压缩 Deepfake 图像提供了新的思考。

图 1：任务总览图

方法概览

新提出的方法 ODDN 包含两个核心组件：开放世界数据聚合（ODA）和压缩丢失梯度校正（CGC），有效降低了配对数据稀缺和压缩影响带来的性能损失。

图 2：ODDN 模型结构图

研究者设计了两个下游任务：一个是基础的二分类任务，该分支优化 backbone 提取伪造相关的特征；另一个是判别图片是否被压缩的二分类任务，该分支通过梯度取反操作，使得该分支梯度在 backbone 的优化方向与设定分类目标相反，backbone 提取与压缩不相关的特征。

同时，将 Unpaired Data 以压缩有无、真假将数据分为四类，然后计算四个簇的聚类中心。

之后再计算分别计算压缩与未压缩的真假簇聚类中心距离，对应公式如下。

对于 Paired Data 因为其稀少性，继续采用之前工作使用的高效方法，即使用 HSIC 度量 Paired Data 数据分布的相似性。

虽然两个下游任务设定的优化是合理的，但是实际训练过程中，两个任务中产生的 Loss 在回传时，可能会出现优化方向的冲突。如何确定最合适的方向呢？研究者采用 PCGrad，将冲突的梯度投影到另一个梯度的法向量上，确保非冲突梯度之间的互补，对齐和促进不同梯度之间的交互，确保优化过程 backbone 的梯度始终处于对主线伪造检测任务产生积极影响的方向。

网络训练的损失函数和总体模型结构图可表示如下：

实验设置

实验使用 ForenSynths 的训练集来训练检测器，包括 20 个不同的类别，每个类别都包含 18000 张使用 ProGAN 生成的合成图像，以及来自 LSUN 数据集的相同数量的真实图像。

为了进行评估，研究者还使用了 17 个常用数据集。其中，前 8 个数据集来自 ForenSynths，包括由 8 个不同的生成模型生成的图像；其余 9 个数据集来自 GANGen-Detection，由另外 9 个不同生成模型生成的图像组成。

图 3：压缩情况已知的实验

图 4：压缩情况未知的实验

图 5：消融实验

总结

该工作提出了开放世界深度伪造检测网络，旨在解决开放世界，尤其是在未配对数据普遍存在的在线社交网络下的伪造检测。该方法能够有效处理与不同数据质量和压缩方法相关的复杂性。

研究人员在各种测试设置下，以及在 17 个流行的数据集上进行的综合实验表明：所提方法能够取得不错的性能，并在实际应用中实现了稳健性和适应性。这项工作不仅推动了深度伪造检测领域，而且为未来旨在打击在线社交平台上伪造信息的研究提供基准。

主要作者介绍

陶仁帅，北京交通大学副教授，工学博士，硕士生导师。入选 “北京交通大学青年英才培育计划”、“中国图象图形学学会高等教育教学成果激励计划”，曾任华为诺亚方舟实验室高级研究员。

李满毅，北京交通大学在读本科生，人工智能专业，师从陶仁帅副教授。已推免至中国科学院自动化研究所攻读博士学位，师从李兵研究员和刘雨帆助理研究员。

赵耀，北京交通大学教授，博士生导师。教育部长江学者特聘教授、国家杰出青年科学基金获得者、万人计划科技创新领军人才、IEEE Fellow。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看