论文题目:Multi-attentional Deepfake Detection
来源:CVPR2021
1 背景与动机
deepfake人脸伪造在互联网上广泛传播,引发了严重的社会担忧。近年来,如何检测此类伪造内容已成为一个热点研究课题,并提出了多种deepfake检测方法。它们中的大多数将deepfake检测模型作为一个普通的二分类问题,即首先使用backbone network提取global feature,然后将其输入二分类器(real/fake)。但由于在这项任务中,真假图像之间的差异往往是微妙的和局部的,作者认为这种vanilla solution不是最佳的。
作者提出,deepfake检测中,real和fake之间的差异随着伪造技术的提升而变得更加subtle和local,因此将deepfake检测看作是二分类问题不是最佳的。实际上,这种subtle and local property与细粒度分类问题具有相似的spirit,例如,在细粒度鸟类分类任务中,一些物种看起来非常相似,只是通过一些小的和局部的差异来区分彼此,比如喙的形状和颜色。基于这一观察结果,作者提出将deepfake检测作为一种特殊的细粒度分类问题进行建模。
2 本文贡献
1.提出了一个新的多注意力网络结构,该结构可以从多个面孔注意区域中捕获局部判别特征;
2.提出了一个regional independence loss,鼓励不同的注意头去关注不同的地方;
3.提出了attention guided data augmention mechanism,解决多注意头退化成单注意头的issue;
3 解决方案
3.1 Overview
作者提出的framework主要由三个部分组成,第一部分是一个Attention Module生成多注意map,第二部分是一个texture enhancement block来提取和加强texture information,最后一个部分是双向使用的bilinear attention pooling用于聚合texture和语义特征。
3.2 Multi-attentional Framework
(1)Mutiple Attention Maps Generation