论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake（多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF）

最新推荐文章于 2024-09-24 10:41:31 发布

海拉鲁的小厨娘

最新推荐文章于 2024-09-24 10:41:31 发布

阅读量2.2k

点赞数 1

文章标签：论文阅读人工智能机器学习

本文链接：https://blog.csdn.net/qq_43687860/article/details/130943953

版权

文章提出了AVoiD-DF，一种新的多模态深度伪造检测框架，通过视听不一致性进行检测。该方法包括时空编码器、多模态联合解码器和跨模态分类器，利用DefakeAVMiT数据集进行训练，该数据集包含多种伪造技术的视频和音频。实验展示了AVoiD-DF在检测性能和泛化性上的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、论文信息

论文名称：AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake

作者团队：

二、主要创新

以前的方法仅侧重单模态的伪造，即使有多模态的数据也只是将音频信号当做监督信号，忽略了音频被伪造的可能。

提出一个新的多模态基准数据集DefakeAVMiT，其包含足够多的视频和音频伪造内容，两个模态均有伪造。
提出了一种检测Deepfake的视听联合学习方法（AVoiD-DF），其利用视听不一致性进行多模态伪造检测。

三、方法

AVoiD-DF包含三个关键部分：时空编码器TSE、多模态联合解码MMD、Cross-Modal Classifier利用MMD的输出进行多模态分类。

1、时空编码器TSE

该模块包括串联的两个transformer编码器。首先对音频和视频模态进行统一的帧采样和预处理，第一个时序编码器模型编码的是同一窗口的时间步长与时间嵌入之间的交互信息。第二个空间编码器产生的编码表示每个时间索引的空间特征。因此，它对应于时空信息。然后两种模态的特征将并行送到MMD进行多模态融合。

2、多模态联合解码MMD

使用MMD模块进行模态融合。输入的视觉和声音嵌入块将是通过两个并行解码器通道馈送。每个通道都有一个双向交叉注意 (BiCroAtt) 模块，之后有自注意力块和前馈层。该模块主要使用双向交叉注意力BiCroAtt 使两种模态之间的信息共享、联合学习。

BiCroAtt:

self-attention:

3、跨模态分类器Cross-Modal Classifier

结合MMD的最终输出，进行最后的多模态分类。

4、损失函数

1）对比损失Lcon：设置为最大化假标签和真实标签的分类标记的相似度。音视匹配的为正样本，其余为负样本。

2）交叉熵损失

3）Additive Angular Margin Loss（ArcfaceLoss)加性角裕度损失：人脸识别

4）总体损失如下：

四、数据集：DefakeAVMiT

共8种伪造生成技术，5种视觉生成技术、3种语音生成技术。真实视频来自VidTIMIT数据集，虚假视频由Faceswap（换脸）、DeepFaceLab （高质量换脸）、Wave2Lip（生成口型同步的talking face）、EVP（音频驱动画面）、PC-AVS（生成口型同步的talking face）、SV2TTS(实时语音克隆，不同说话人生成相同语音音频）、Voice Replay（语音重放，使用真实人物预先录制的音频对应虚假身份）、AV exemplar autoencoders（将任何输入语音转换为视听流，输入模仿特定目标的语音）。