目录
论文地址:https://arxiv.org/abs/2103.09096
自适应频率信息挖掘块(Adaptive frequency information mining block)
论文地址:
https://arxiv.org/abs/2103.09096
综述
a) 由于softmax损失监督的学习特征是可分离的,但没有足够的区分性,因为softmax损失并不明确鼓励类内紧致性和类间可分离性;
b)固定滤波器组和手工制作的功能不足以捕获来自不同输入的伪造频率模式。
为了弥补这种局限性,本文提出了一种新的频率感知鉴别特征学习框架。具体来说,设计了一种新的单中心丢失(SCL),它只压缩自然人脸的类内变化,同时增加嵌入空间中的类间差异。在这种情况下,网络可以以较少的优化难度学习更多的鉴别特征。此外,还开发了一个自适应频率特征生成模块,以完全数据驱动的方式挖掘频率线索。通过以上两个模块,整个框架可以以端到端的方式学习更多的鉴别特征。
1. 介绍
[1],[3]人脸伪造开源项目
[2] 人脸伪造app
[21] [35] 变分自动编码器
[15] GAN
[46,5,4,34]早期手工特征的神经网络
[20,45,12] 人脸合成技术的进步
[10,33,29]将不同信息和先验知识引入主干网的方法
[37]三重态丢失
[29,9,41,13] 引入了频率信息并取得了显著的成果
基于上述思想,本文提出了一种新的频率感知鉴别特征学习框架(FDFL)。框架主要解决两个问题:
a)如何采用度量学习来学习更多的鉴别特征用于人脸伪造检测;
b)如何自适应地提取与频率相关的特征。
针对这两个问题,开发了两个子模块:单中心损耗(SCL)和自适应频率特征生成模块(AFFGM)
![](https://img-blog.csdnimg.cn/20211001204817482.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA6I-c5pyI5pi06YeN5paw5byA5aeL,size_20,color_FFFFFF,t_70,g_se,x_16)
单中心丢失旨在减少自然人脸的类内变化,同时增加嵌入空间中的类间差异。
为此,SCL使自然面表示到中心点的距离最小化。同时,SCL鼓励从操纵面到中心点的距离比从自然面至少大一个边距。与常规的度量学习方法不同,SCL不限制被操纵人脸的类内紧度,更符合被操纵人脸的特征分布特征。因此,SCL监督下的网络能够以较少的优化难度学习更多的鉴别特征。
对于与频率相关的特征,本文开发了一个由特殊的数据预处理和自适应频率信息挖掘模块(AFIMB)组成的AFFGM。数据预处理使图像块在空间域中的位置关系与其在频域中的位置关系保持一致。在这种情况下,预处理的数据能够直接使用现有的卷积网络。AFIMB以数据驱动的方式自适应地挖掘频率线索,从而避免使用太多不全面的先验知识。与固定滤波器组和手工制作的特征相比,AFFGM可以在频域更灵活地捕获伪造线索。
2. 相关工作
人脸检测
人脸伪造检测早期的工作重点是
利用手工制作的特征或修改现有神经网络的结构[46,5,19,4,34]来检测人脸伪造。
Y anget al.[46]利用从中心面部和整个面部估计的头部姿势的不一致性来识别被操纵的面部。MesoNet[4]设计了一个由两个初始模块和两个经典卷积层组成的浅层神经网络。
当像xception[7]这样功能强大的通用特征提取器应用于伪造检测时,早期作品的性能甚至更不令人满意。
因此,研究主流逐渐转向将不同的信息和先验知识引入主干网络以检测人脸伪造[10,33,29]。
Dange等人[10]介绍了操纵区域(manipulated regions)的位置信息,以引导网络关注关键区域。
Qiet等人[33]利用生物信息学发现,由于血液通过面部泵送,皮肤颜色会呈现周期性的微小变化。
Face X-ray[24]创新性地使用自生数据(self-generated data)训练网络去定位混合边界(blending boundaries),极大地提高了泛化能力。
Two-branch[29]利用固定滤波器组提取频率信息,这限制了提取鉴别特征的能力。
度量学习(metric learning)
尽管度量学习在人脸识别[37]和人物再识别(re-ID)[17]中显示了其优势,但在人脸伪造检测中,使用深度度量学习学习鉴别特征或多或少被忽略了。
中心损耗[42]和三重态损耗[37]是与本位的工作最相关的两种度量学习方法。中心损耗[42]旨在为每个类别的功能学习一个中心,并使同一类别的功能更接近其相应的中心。显然,中心丢失的一个缺点是它忽略了类间可分性。
三重态丢失[37]鼓励具有相同身份的数据点的特征比具有不同身份的数据点更接近。然而,三元组丢失可能会遇到挖掘硬三元组耗时和数据急剧扩展的问题。
Kumaret al.[22]利用具有三重丢失监控的网络来检测人脸伪造。但三重态丢失在imagenet预先训练的主干上表现不佳。
Two-branch [29]提出了一种新的损失,它压缩了自然人脸的可变性(variability),并推开(push away)了被操纵的人脸。但是它的动机来自异常检测,并且这种方法在许多方面与我们的SCL非常不同。
3. 提出的方法
3.1 综述
针对以往判别特征学习和频率信息挖掘方法存在的问题,提出了一种频率感知判别特征学习框架。如图2所示,框架同时从RGB域和频域提取特征,并在整个框架的早期阶段将其合并。经过特征嵌入后,得到高层次的表示。框架的最后是一个分类器,它输出输入样本的预测结果。频率线索的挖掘由我们的AFFGM完成(见第3.2节)。我们使用简单的逐点卷积块融合频域特征和RGB域特征,这有助于减