论文链接:https://arxiv.org/pdf/2208.07828.pdf
动机
为解决域偏移问题,不少研究利用了辅助信息,如深度图,来区分真假人脸。然而,这些研究高度依赖于辅助信息的准确性,因此它们仍然具有局限性。基于此,不少研究人员开始从域泛化的角度来提高模型在未知场景中的鲁棒性,通过对齐不同域数据集之间的分布来将图像映射到泛化性强的特征空间。但这些方法由于没将与域无关的脸部活性表示与其他与域相关的表示区分开,模型的性能仍受到了限制。
创新点
(1)提出了一种用于域泛化人脸活性检测的表示解耦网络,该网络能够在推理中识别未知域/数据集中的新型欺骗攻击
(2)该网络用于提取脸部活性、内容及图像域表示,后两个表示与脸部活性无关
方法论
1)Overview
在训练期间,作者使用了 S 个不同的源域 以及对应的标签 。在推理期间,模型则利用输出的脸部活性表示来区分真假人脸。
如下图所示,作者提出的网络包含三个用于处理图片的编码器 (编码器为 ResNet18,第一层的参数是共享的):活性编码器、内容编码器以及域编码器。其中, 用于提取图像的活性表示,该编码器后面接着一个活性分类器,该分类器利用编码器提取的活性表示来对输入图像进行分类。 则用于提取脸部内容特征。则用来提取域表示,后面接了一个域分类器,对图像域进行分类。
2)Learning Liveness-Irrelevant Representation
如上图所示,对于内容编码器和解码器,它们分别用来提取以及恢复脸部内容信息,该部分的监督信号为 PRNet 输出的人脸特征,公式如下:
此外,作者使用了额外的监督来确保提取的内容特征不包含活性特征及域特征,公式如下:
对于域表示的编码器和分类器,它们分别用来提取域特征以及对域特征进行分类,公式如下:
其中, 为 对应标签的 one-hot 编码。
同样地,作者也使用了额外的监督来确保所学的域特征不包含活性特征,公式如下:
3)Learning Domain-Invariant Liveness Representation
给定源域 i 中的第 j 张图片,作者使用 来提取图片的活性表示, 则用于确定输入的人脸图像是真实的还是伪造的。为了更好地区分真假人脸图像,作者采用简化的大边距余弦损失(LMCL)函数作为目标函数,公式如下:
其中, 为超参数, 和 为分类器中的参数。通过该公式学习到的 和 将分别代表真假图像的域不变活性表示的 prototypes。随着图像域信息的解耦,活性表示的学习不仅可以区分真实的人脸图像和欺骗攻击的人脸图像,还可以强制最小化类内变化。
同样地,为了使提取的活性特征中不包含任何与图像域相关的信息,作者使用了如下公式进行约束:
实验结果
在未知域中与其他方法的性能对比结果如下:
在包含 3D mask 的未知域中与其他方法的性能对比结果如下:
作者所提模型与 SSDG-R 模型提取的特征的可视化结果如下:
消融实验结果如下: