Multi-attentional Deepfake Detection阅读笔记

最新推荐文章于 2024-06-09 09:31:53 发布

给个编制

最新推荐文章于 2024-06-09 09:31:53 发布

阅读量2.1k

点赞数 3

分类专栏：文献阅读文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/weixin_43540533/article/details/115407521

版权

文献阅读专栏收录该内容

37 篇文章 7 订阅

订阅专栏

Multi-attentional Deepfake Detection阅读笔记

Abstract

之前的大多数算法都是Deepfake建模为普通的二进制分类问题。

但是在这项任务中，真假图像之间的差异往往是微妙的和局部的，所以这类普通的解决方法不是最佳的。本文中讲Deepfake表述为一个细粒度的分类问题，并提出了一种新的多注意力的Deepfake检测网络。具体来说，由三部分组成。

多个空间注意力头，使网络关注不同的的局部区域；
纹理增强块，放大浅层特征中的细微伪影；
在注意力图的指导下，聚合低层纹理特征和高层语义特征。

为了解决网络的学习困难，进一步引入了一个新的区域独立性损失和一个注意力引到的数据增强策略。

1 Introduction

得益于生成模型的巨大进步，Deepfake技术取得显著成功。随着伪造品越来越真实，真假之间的差异变得更微妙和局部。

基于零件模型在细粒度分类领域的成功启发，提出一种multi-attention network。为关注不同的潜在伪影区域，设计了多注意力头，利用深层语义特征预测多个空间注意力图。

二，为了防止在不同的层中出现细微的差异，增强从浅层获得的纹理特征之间的差异，然后聚集低级纹理特征和高级语义特征作为每个局部部分的表示。

最后，每个局部的特征表示将由一个双线性关注汇集层独立汇集，并融合为整个图像的表示。

在这里插入图片描述

多注意结构只能以无监督或弱监督的方式进行训练，

通过使用共同的学习策略，我们发现多注意头会退化为单注意头，即只有一个注意区域产生强烈的反应，而所有剩余的注意区域被抑制，不能捕捉有用的信息。为了解决这个问题，我们进一步提出了一种新的注意力引导的数据增强机制。

同时，我们引入了一个新的区域独立性损失，以鼓励不同的关注头关注不同的本地部分。

贡献：

定义为细粒度分类任务，开辟一个新视角。
提出了一种新的多注意网络结构，从多个人脸注意区域获取局部区分特征。为了训练这个网络，还引入了一个区域独立性损失，并设计了一个注意力引导的数据增强机制，以敌对的学习方式辅助网络训练。
达到SOTA水平。

2 Related Works

2.1 Deepfake Detection

2.2 Fine-grained Classification

3 Methods

3.1 Overview

真假人脸之间的差异通常是微妙的，并且发生在局部，这并不容易被单注意力网络结构捕获。所以将注意力分散到多个局部，更有效地收集局部特征。

另一方面，我们观察到，由伪造方法引起的轻微伪影，倾向于保留在浅层特征的纹理信息中。

这里，纹理信息代表浅层特征的高频分量，就像RGB图像的残留信息一样。因此，更浅的特征应该被关注和增强，这还没有被当前最先进的检测方法所考虑。

shallow feature

三个关键组件集成到主干网络中：

使用一个注意力模块来生成多个注意力图。
使用密集连接的卷积层[18]作为纹理增强模块，可以从浅层特征图中提取和增强纹理信息。

Gao Huang, Zhuang Liu, Laurens van der Maaten, and Kilian Q. Weinberger. Densely connected convolutional networks. In 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, USA, July 21-26, 2017, pages 2261–2269. IEEE Computer Society, 2017.
利用双线性关注池（BAP）代替全局平均关注池化。使用贝叶斯概率方法从浅层收集纹理特征矩阵，从深层保留语义特征。

在这里插入图片描述

多注意力结构的网络缺乏区域级标签，只能使用无监督或者若监督训练。会导致网络退化，为解决次问题，提出区域独立性损失。

3.2 Multi-attentional Framework

Multiple Attention Maps Generation.

在这里插入图片描述

attention block由 $1\times1$ 卷积层，1个BN层，1个非线性激活RELU。

Textural Feature Enhancement. 纹理特征增强。

大多数检测模型都没有注意到，伪影通常在浅层特征的纹理信息中较为突出。这里的纹理信息代表浅层特征的高频分量。因此，为了保留更多的纹理信息来捕捉这些伪影，设计了一个纹理特征增强block。

采用归一化平均池化替换全局平均池化。

我们在特征层定义残差来表示纹理信息如下:

$T_{SL_t} = f_{SL_t}(I)-D$

这里的 $T$ 包含了 $f_{ST_t}(I)$ 的大部分纹理信息。然后使用3层密集连接的卷积块来增强 $T$ ，输出记为 $\in R^{C_F \times H_s \times W_s}$ ，称为“textual feature map"

Bilinear Attention Pooling（BAP）. 双线性注意力池化。

对浅层特征图和深层特征图都使用双向BAP

为了提取浅层纹理特征，我们首先使用双线性插值将注意力图调整到与特征图相同的比例，如果它们不匹配的话。然后，我们分别用每个注意力图Aka元素乘纹理特征图F，得到部分纹理特征图Fk。

考虑到不同区域范围之间的差异，如果使用传统的全局平均融合，融合后的特征向量会受到注意力图强度的影响，这违背了关注纹理信息的目的。为了解决这个问题，我们设计了一个标准化的平均池:

在这里插入图片描述

通过叠加 $v_k$ 得到纹理特征矩阵 $\in R^{M\times C_F}$ 。然后送入分类器。

3.3 Regional Independence Loss for Attention Maps Regularization

注意力图正则化的区域独立性损失

由于缺乏细粒度级别的标签，所以容易陷入网络降级的情况。即，不同的注意力图往往集中在同一区域，这不利于网络捕捉给定输入的丰富信息。我们希望每个注意力图都位于固定的语义区域。

所以提出一个区域独立性损失，以减少特征图之间的重叠，并保持不同输入的一致性。

通过修改[15]中的中心损失，区域独立性损失定义如下:

（略……）

对于我们框架的目标函数，我们将这种区域独立性损失与传统的交叉熵损失相结合:

$\lambda_1*L_{CE}+\lambda_2 * L_{RIL}$

$L_{CE}$ 是交叉熵损失， $\lambda_1=\lambda_2=1$

3.4 Attention Guided Data Augmentations

注意力导向的数据扩充

（略……）

4 Experiments

4.1 Implement Details

对齐的面部图像保存为380 × 380大小的输入

4张RTX 2080Ti GPU, batch size为48。

4.2 Determination of $SL_a$ and $SL_t$

采用EfficientNet-b4作为backbone network.

包括7层主要的层在EfficientNet中，分别用L1L7表示。

由于观察到细微的伪影倾向于被网络较浅层的纹理特征所保留，所以选择L2和L3

4.3 Comparison with Previous Methods

在这一部分，我们将我们的框架与当前最先进的深度伪造检测方法进行比较。

我们采用ACC(精度)和AUC(接收机工作特性曲线下的面积)作为广泛实验的评价指标。

4.3.1 Evaluation on FaceForensics++

数据集

4.3.2 Evaluating on DFDC Dataset

略

4.3.3 Cross-dataset Evaluation on Celeb-DF

4.4 Ablation Study

4.4.1 Effectiveness of Multiple Attentions

为了证实使用多重注意的有效性，我们评估了注意图的数量如何影响模型的准确性和可转移性。

4.4.2 Ablation Study on Regional Independence Loss and AGDA

5 Conclusion

从新的角度研究deepfake问题，表述为一个细粒度分类问题。提出了一个多注意力的Deepfake检测框架。

所提出的框架通过多个注意力图来探索有区别的局部区域，并从浅层增强纹理特征以捕捉更细微的伪影。然后，在注意力图的指导下，对低层的纹理特征和高层的语义特征进行聚合。引入了区域独立损失函数和注意力引导的数据增强机制，帮助训练出多种注意力。我们的方法在广泛的度量方面取得了很好的改进。

给个编制

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
4
评论
Multi-attentional Deepfake Detection阅读笔记

Multi-attentional Deepfake Detection阅读笔记Abstract之前的大多数算法都是Deepfake建模为普通的二进制分类问题。但是在这项任务中，真假图像之间的差异往往是微妙的和局部的，所以这类普通的解决方法不是最佳的。本文中讲Deepfake表述为一个细粒度的分类问题，并提出了一种新的多注意力的Deepfake检测网络。具体来说，由三部分组成。多个空间注意力头，使网络关注不同的的局部区域；纹理增强块，放大浅层特征中的细微伪影；在注意力图的指导下，聚合低层纹理特
复制链接

扫一扫