论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake(多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF)

一、论文信息

论文名称:AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake

作者团队:

 

二、主要创新

以前的方法仅侧重单模态的伪造,即使有多模态的数据也只是将音频信号当做监督信号,忽略了音频被伪造的可能。

  • 提出一个新的多模态基准数据集DefakeAVMiT,其包含足够多的视频和音频伪造内容,两个模态均有伪造。

  • 提出了一种检测Deepfake的视听联合学习方法(AVoiD-DF),其利用视听不一致性进行多模态伪造检测。

三、方法

AVoiD-DF包含三个关键部分:时空编码器TSE、多模态联合解码MMD、Cross-Modal Classifier利用MMD的输出进行多模态分类。

1、时空编码器TSE

 该模块包括串联的两个transformer编码器。首先对音频和视频模态进行统一的帧采样和预处理, 第一个时序编码器模型编码的是同一窗口的时间步长与时间嵌入之间的交互信息。 第二个空间编码器产生的编码表示每个时间索引的空间特征。 因此,它对应于时空信息。 然后两种模态的特征将并行送到MMD进行多模态融合。

2、多模态联合解码MMD

 使用MMD模块进行模态融合。 输入的视觉和声音嵌入块将是通过两个并行解码器通道馈送。 每个通道都有一个双向交叉注意 (BiCroAtt) 模块,之后有自注意力块和前馈层。 该模块主要使用双向交叉注意力BiCroAtt 使两种模态之间的信息共享、联合学习。

BiCroAtt:

 self-attention:

 3、跨模态分类器Cross-Modal Classifier

结合MMD的最终输出,进行最后的多模态分类。

 4、损失函数

1)对比损失Lcon:设置为最大化假标签和真实标签的分类标记的相似度。音视匹配的为正样本,其余为负样本。

2)交叉熵损失

3)Additive Angular Margin Loss(ArcfaceLoss)加性角裕度损失:人脸识别

 

 4)总体损失如下:

 四、数据集:DefakeAVMiT

 共8种伪造生成技术,5种视觉生成技术、3种语音生成技术。真实视频来自VidTIMIT数据集,虚假视频由Faceswap(换脸) 、DeepFaceLab (高质量换脸)、Wave2Lip(生成口型同步的talking face)、EVP(音频驱动画面)、PC-AVS(生成口型同步的talking face)、SV2TTS(实时语音克隆,不同说话人生成相同语音音频) 、Voice Replay(语音重放,使用真实人物预先录制的音频对应虚假身份)、AV exemplar autoencoders(将任何输入语音转换为视听流,输入模仿特定目标的语音)。

 五、实验结果

1、检测性能

 2、泛化性

 3、消融实验

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
MSFT-YOLO是基于Transformer模型改进的Yolov5用于检测SE(电子元器件)缺陷的方法。 Transformer是一种先进的神经网络架构,主要用于自然语言处理任务,但在计算机视觉领域也得到了广泛应用。Yolov5则是一种经典的目标检测算法,通过将图像分成多个网格单元并预测每个单元中的物体,实现了实时目标检测。 在MSFT-YOLO中,我们将Transformer应用于Yolov5的特征提取阶段,以提高对SE缺陷的检测能力。传统的Yolov5使用的是卷积神经网络作为特征提取器,但这种方法在处理复杂的缺陷图像时可能会存在一定的局限性。 通过引入Transformer,我们可以将图像中的每个像素看作是一组序列数据,并利用Transformer的自注意力机制来捕捉不同位置之间的依赖关系。这种方式可以提取出更具语义信息的特征表示,从而有效地检测SE缺陷。 在训练过程中,我们使用大量带有标注的SE缺陷图像来优化网络参数。通过进行端到端的训练,我们可以不断调整网络权重以提高检测精度。此外,我们还可以使用数据增强技术来扩增数据集,从而提升模型的鲁棒性和泛化能力。 实验结果表明,MSFT-YOLO相较于传统的Yolov5在SE缺陷检测方面取得了更好的性能。它能够识别出更多的缺陷类型,同时还具备较低的误检率。这使得它在工业制造等领域中有着广泛的应用前景,能够提高产品质量和生产效率。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值