论文阅读《Multi-attentional Deepfake Detection》

论文题目:Multi-attentional Deepfake Detection

来源:CVPR2021

代码:multiple-attention

1 背景与动机

        deepfake人脸伪造在互联网上广泛传播,引发了严重的社会担忧。近年来,如何检测此类伪造内容已成为一个热点研究课题,并提出了多种deepfake检测方法。它们中的大多数将deepfake检测模型作为一个普通的二分类问题,即首先使用backbone network提取global feature,然后将其输入二分类器(real/fake)。但由于在这项任务中,真假图像之间的差异往往是微妙的和局部的,作者认为这种vanilla solution不是最佳的。

        作者提出,deepfake检测中,real和fake之间的差异随着伪造技术的提升而变得更加subtle和local,因此将deepfake检测看作是二分类问题不是最佳的。实际上,这种subtle and local property与细粒度分类问题具有相似的spirit,例如,在细粒度鸟类分类任务中,一些物种看起来非常相似,只是通过一些小的和局部的差异来区分彼此,比如喙的形状和颜色。基于这一观察结果,作者提出将deepfake检测作为一种特殊的细粒度分类问题进行建模。

2 本文贡献

1.提出了一个新的多注意力网络结构,该结构可以从多个面孔注意区域中捕获局部判别特征;

2.提出了一个regional independence loss,鼓励不同的注意头去关注不同的地方;

3.提出了attention guided data augmention mechanism,解决多注意头退化成单注意头的issue;

3 解决方案

3.1 Overview

        作者提出的framework主要由三个部分组成,第一部分是一个Attention Module生成多注意map,第二部分是一个texture enhancement block来提取和加强texture information,最后一个部分是双向使用的bilinear attention pooling用于聚合texture和语义特征。

3.2 Multi-attentional Framework

(1)Mutiple Attention Maps Generation

        输入I,经过Backbone Layers 1得到的Shallow feature f_{SL_{a}}(I) ,将f_{SL_{a}}(I)输入进设计的attention block中,得到Attetion mapsA_{k}, k=1,2,3...A_{k}\in R^{\left \{ H_{t} \times W_{t}\right \}}。其中attention block由一个1x1 Conv、一个batch normalization层以及一个ReLu层组成。

(2)Textural Feature Enhancement

f_{SL_{a}}(I)经过一个local average pooling下采样得到non-textural feature map D,接着:

得到T,使用一个三层的 Densely Connected Conv Block 加强 T,得到F\in R^{C_{F}\times H_{s}\times W_{s}},即overview中的textual feature map T_{SL_{t}}

(3)Bilinear Attention Pooling

为了提取浅层textural feature,首先使用bilinear interpolation(双线性插值)将attention maps resize成和textural feature maps相同形状,然后将它们做一个element-wise multiply得到F_{k}F_{k}

经过normalized average pooling:

        normalized average pooling用于解决传统的average pooling池化后的特征向量会受到注意强度图的影响忽视textural feature的问题。将所有的v_{k}\in R^{1\times N}堆叠在一起得到textual feature matrixP\in R^{M\times C_{F}},被喂入classifier中。

        同时,将每个attention map 分片成单channel的attention mapA_{sum},将A_{sum}和网络最后一层得到的feature map喂入BAP得到global feature G,同样将G喂入classifier中

3.3 Regional Independence Loss for Attention Maps Regularization

        由于缺乏细粒度的级别标签,训练多注意网络容易陷入网络退化的情况。不同的attention maps倾向于集中在同一区域,如下图:

        其中B是batch size,M是number of attentions, m_{in}表示the margin between feature and corresponding feature center,随着 y_{i}为0还是1而变化, m_{out}是the margin between each feature center, c\in R^{M\times N}被定义为:
        其中 \alpha为updating rate,每个epoch都declay它。
         L_{RIL}的第一部分是类内loss,目的是为了将V逼近特征中心c,第二部分是类间loss,排斥分散的特征中心。
        最后Loss被定义为:

3.4 Attention Guided Data Augmentations

        在Regional Independence Loss的抑制下,减少了不同注意区域的重叠,然而,attention maps可能仍然response相同的区别特征,如下图:

        对于每个训练样本,随机选择一个attention mapA_{k}经过normalized得到A_{k}^{*}\in R^{H\times W}来指导数据增强,使用Gaussian blur来生成一个degraded image:

        这个数据增强:(1)加入了噪声,提高了鲁棒;(2)随机抹去了最显著的区别性区域,让不同的attention maps将response集中在不同目标上。

评论 2 您还未登录,请先 登录 后发表或查看评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:游动-白 设计师:我叫白小胖 返回首页

打赏作者

唐崽向前冲

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值