Tags: 注意力机制, 神经网络, 视频检测
年份: 21年cvpr
论文地址:https://arxiv.org/abs/2104.06609
代码:https://github.com/crywang/RFM
摘要
提出了一个基于注意力的数据增强框架来指导检测器细化和扩大其注意力。我们的方法跟踪和遮挡面部Top-N敏感区域,鼓励检测器深入挖掘之前忽略的区域,以获得更有代表性的伪造结果。
介绍
人脸特征点检测(vanilla CNN)倾向于从脸部的有限区域内检测,而人类倾向于整个面部。
现在三个方向:
a)通过提取由操作技术缺陷产生的数字指纹,对cnn生成的面部图像实现了先进的泛化性能;
b)部分作品将人脸划分为多个patch并进行独立检测,强制优化了探测器对假脸的感知场。
c)利用精心设计的训练数据集,利用同源真假人脸之间的差异来指导检测器学习假人脸上的伪造信息,从而进一步实现伪造可视化。
方法
基于注意力的数据增强方法:代表伪造挖掘(RFM),通过在训练过程中精炼训练数据来解决有限注意力问题。
包括两个步骤:
1)利用检测器的梯度生成图像级的伪造注意图(FAM),可以精确定位面部的敏感区域;
2)利用可疑伪造消除(Suspicious Forgery erase, SFE)有意遮挡面部的Top-N敏感区域。
该方法通过将检测器的注意力从过度敏感的面部区域解耦,实现了具有先进水平的检测性能,并显著保持了对仅包含少量技术伪造的人脸的检测性能。
RFM过程:
分为三个部分。首先(在步骤1、2中),我们为单个小批的每个原始图像生成FAM。然后(在步骤3和步骤4中),我们利用SFE在之前生成的FAMs的指导下对原始图像进行擦除。最后(在步骤5和步骤6中),我们使用被擦除的图像作为输入来训练检测器
- FAM
找到最敏感的区域,将最敏感的区域定义为扰动对检测结果影响最大的区域。
正向传播,检测器输入一张人脸图像I,输出两个对数Oreal和Ofake衡量图片真假。结果由两个对数的相对大小决定。 Δ I O r e a l , Δ I O f a k e \Delta_IO_{real},\Delta_IO_{fake} ΔIOreal,ΔIOfake代表微小的噪声对输出的影响,两者之间的最大差值视为FAM。代表扰动对检测结果的影响。
FAM Map: M a p 1 = m a x ( a b s ( Δ I O f a k e − Δ I O r e a l ) ) = m a x ( Δ I ( a b s ( O f a k e − O r e a l ) ) ) Map_1=max(abs(\Delta_IO_{fake}-\Delta_IO_{real}))=max(\Delta_I(abs(O_{fake}-O_{real}))) Map1=max(abs(ΔIOfake−ΔIOreal))=max(ΔI(abs(Ofake−Oreal)))
函数max(·)计算沿通道轴的最大值,函数abs(·)得到每个像素的绝对值
-
FAM和CAM的区别
FAM定位检测器敏感的区域,而Class Activation Mapping突出显示检测器用于决策的区域。另一方面,FAM在图像级生成map,而Class Activation Mapping基于网络最后的卷积层计算map
-
可疑伪造擦除
擦除方法SFE,遮挡FAM计算的Top-N敏感区域。
- 首先以小批量的方式为每张图像生成FAM,FAM和输入图像的大小都可以假设为H×W,
- 对于每张图像,我们根据之前生成的对应FAM中的值降序排序坐标。接下来,按照上面计算的顺序将每个像素视为锚点。
- 对于每个锚点,我们使用随机整数来形成一个矩形块,尺寸小于 H e × W e ( H e ≤ H , W e ≤ W ) H_e\times W_e(H_e\le H,W_e\le W) He×We(He≤H,We≤W)对之前未被遮挡的锚点进行遮挡.
- 重复遮挡过程,直到每个图像被n个块遮挡。
优点:
1)在FAM的指导下精确遮挡面部敏感区域;
2)利用多个块灵活擦除不同位置的伪造区域,尽可能多地保留面部区域;
3)不泄露额外信息给检测器,防止检测器对擦除块的形状或位置过拟合