关注公众号,发现CV技术之美
本篇文章分享 AAAI 2023 论文『Cyclically Disentangled Feature Translation for Face Anti-spoofing』,介绍了基于循环特征解耦网络的人脸活体检测方法《CDFTN》。
详细信息如下:
论文链接:https://arxiv.org/abs/2212.03651
项目链接:https://github.com/vis-face/CDFTN
01
问题背景
域差异导致泛化性差是活体检测领域一个棘手问题,现有大多数解决方案采用多域泛化方法(DG)来学习域无关的特征表示,通过对齐源域上判别性特征来使模型在不访问目标域的数据的情况下泛化到目标域。现实应用中,标注多域数据往往是费时费力的,但我们可以很容易从现有的人脸识别系统中获得大量的未标注人脸图像数据,因此域适应方法(DA)更贴切现实问题。
当前人脸活体方向域适应的方法利用有标签源域数据和无标签目标域数据来获得一个可泛化的决策边界,然而,这些方法通常很难完美地实现域不变的活体特征解耦,这可能会使模型受光照、人脸ID、攻击类型等域差异影而导致响分类性能下降。本文提出一种新颖的循环解耦特征交换的方法(CDFTN),基于对抗训练实现特征解耦,并通过合成伪标签样本训练提升模型泛化性能。
02
方法介绍
CDFTN总框架图:
★阶段 1包括三个步骤:1)通过为每个域应用一对不同的编码器(和)实现活体特征和内容特征的分解;2)通过活体判别器和分类器进行对抗域适应来提取域不变的活体特征;3)通过域间活体特征特征交换,生成器基于跨域特征表示生成伪标签图像;
★阶段2 利用阶断1生成伪标签图像训练得到域适应的分类器。
2.1 跨域特征解耦
我们假设不同域之间尽管存在明显差异,但它们之间具有共同活体属性,即活体关联特征是域不变的特征。为了将来自源域和目标域的输入映射到一个公共空间,我们利用一对活体编码器和来提取域不变的活体特征和,一对内容编码器和来提取域特有的内容特征和,然后通过域对抗训练确定活体特征和从属关系,具体对抗损失如下:
活体特征的判别性由源域标签确定,来自源域的活体特征的交叉熵损失函数表示如下:
其中是一个二分类器,此外利用一对解码器和在像素层次将提取的特征重建回原始输入图像,重建损失函数如下:
其中,。
2.2 单目标域特征交换
在完成域不变特征映射到共同的特征空间后,我们进一步将它们从有标签的源域迁移到到无标签的目标域,并利用交换后的特征生成伪标签图像,最后直接在生成的伪标签图像上训练一个鲁棒的分类器即可直接在无标签的目标域上验证。
如框架图所示,为了生成理想的伪标签图像,提取的域不变活体特征在域间交换,并与相应的域特有内容特征级联,输入到生成器合成伪图像,,其中表示伪标签图像。为了合成认证图像,我们进一步增加了一对判别器和来区分和,和,对抗损失函数表述如下:
此外,我们引入循环一致性思想,训练的特征编码器和生成器功能应该能够将生成伪图带回原始输入,即如果映射函数能够将特征从源域转移到目标域,那么它们也有望将相同的特征带回原始域,循环一致性损失表示为:
最后,为了使从和中提取的特征交换后保存不变,我们在域不变的活体特征上应用了重构损失函数,如下:
如框架图所示,网络整体优化包括两个阶段,阶段1包括的特征解耦域适应和域间特征交换,整体优化目标包括公式(1)-(6),如下:
阶段2则是利用阶段1生成的伪标签图像训练一个分类器,这里我们采用了两种活体检测方法,包括ResNet18和LGSC。
2.3 多目标域特征交换
考虑实际应用中更一般的场景,即仅有一个有标签的源域和多个无标签的目标域数据,我们将CDFTN扩展到多个无标签目标域设定下。我们利用不同的活体编码器和来提取活体特征和,如下图所示,应用了个活体判别器进行域对抗训练。所提取的活体特征通过前向训练从源域到目标域,从到,并最终从目标域返回源域。
我们利用不同的内容编码器和来提取域特有特征和以及在每个域中应用不同的生成器和来生成伪标签图像。与单目标域特征交换类似,我们利用合成伪标签图像训练一个鲁棒的分类器,并在原来的目标域图像像上验证,当时,方法退化回单目标域特征交换。
03
实验结果
实验是在活体常用的CASIA-MFSD(C),Replay-Attack(I),MSU-MFSD(M),Oulu-NPU(O)四个数据集上验证,实验细节上我们将人脸图像resize到224x224,同时对样本做了类别均衡。两个训练阶段均采用了Adam优化器,阶段1初始学习率为0.001,batch size为32,共训练30个epoch;阶段2 batch size 为32,训练了5个epoch。
3.1 和其他DA方法对比
下表为不同的DA方法在活体任务上的实验结果,可以发现,在大多数跨域场景,我们的方法均有较大幅度的领先,这是因为我们的方法采用了特征交换,而不是简单的域适应和利用目标领域特有的特征来获得鲁棒的和可泛化的分类器。
3.2 多目标域特征交换的效果
实验结果表明,SS2MT算法的结果明显优于SS2BT算法,这表明在子域间差异较大的情况下,单目标活体编码器不能很好地提取混合目标中多个子域的活体特征。因此,将多个子域视为独立的独立域,模型扩展将获得更好的性能。
3.3 消融实验
我们对公式7中的优化目标函数的每个部分进行消融实验,包括是活体分类器,循环一致性损失,自重构和潜在重构模块。从表格可以发现,所有损耗分量对于实现最优解决方案至关重要。比较所有分量,是最重要的,因为它的目标是在训练过程中稳健地重建原始图像;是第二重要的分量,因为它强制活体编码器在编码原始图像和伪标注图像时提取不变的活体特征。
3.4 可视化
生成伪标注图像可视化,从图像到图像转换的角度来看,不同领域的人脸具有不同的身份和背景,因此不能满足严格的双射关系,也不能完全满足循环一致性。因此,生成的图像似乎是两个域的随机混合,质量不佳。然而,我们的工作主要是为了提高跨域人脸的反欺骗性能,并且当前生成的图像足够好地具有跨域特征表示。
Grad-CAM 可视化,中间结果为普通分类器的特征激活图,第三行为CDFTN方法训练得到分类器的特征激活图,基于ResNet-18的分类器主要集中在人脸区域,然而我们的CDFTN-R方法更注重手部区域和纸张或屏幕的边缘。
t-SNE特征可视化,我们将特征转换前后学习到的特征分布可视化,以分别在图a和图b中评估域发散的优化。我们从每个域中随机选择500个实例,并绘制t-SNE图。比较我们可以发现,经过域适应后,域组件比以前更好地合并,显示了源域和目标域之间相似的分布。此外,从区分能力的角度来看,特征转换后的决策边界更加清晰。
04
总结
由于域特有的特征差异很大,跨场景人脸反欺骗仍然是一项具有挑战性的任务。在这项工作中,我们提出了CDFTN来改进现有的关于FAS任务的DA方法。CDFTN通过在域内交换域不变的活体特征来实现特征转换。为了实现循环重构,我们提出了应用循环一致性、自重构和潜在重构模块。我们在伪标记图像上训练分类器,该分类器对目标域具有很好的泛化能力。我们的实验重点是评估跨数据库的FAS性能,并验证了我们提出的方法在各种公共数据集上的性能优于最新的方法。
END
欢迎加入「人脸活体」交流群👇备注:FAS