活体检测 Learning Facial Liveness Presentation For Domain Generalized Face Anti-Spoofing 论文阅读笔记

最新推荐文章于 2024-07-17 23:52:00 发布

chen_znn

最新推荐文章于 2024-07-17 23:52:00 发布

阅读量1.2k

点赞数 4

分类专栏：人脸识别文章标签：深度学习人工智能计算机视觉分类

本文链接：https://blog.csdn.net/qq_38964360/article/details/126574281

版权

人脸识别专栏收录该内容

29 篇文章 7 订阅

订阅专栏

论文链接：https://arxiv.org/pdf/2208.07828.pdf

动机

为解决域偏移问题，不少研究利用了辅助信息，如深度图，来区分真假人脸。然而，这些研究高度依赖于辅助信息的准确性，因此它们仍然具有局限性。基于此，不少研究人员开始从域泛化的角度来提高模型在未知场景中的鲁棒性，通过对齐不同域数据集之间的分布来将图像映射到泛化性强的特征空间。但这些方法由于没将与域无关的脸部活性表示与其他与域相关的表示区分开，模型的性能仍受到了限制。

创新点

（1）提出了一种用于域泛化人脸活性检测的表示解耦网络，该网络能够在推理中识别未知域/数据集中的新型欺骗攻击

（2）该网络用于提取脸部活性、内容及图像域表示，后两个表示与脸部活性无关

方法论

1）Overview

在训练期间，作者使用了 S 个不同的源域 $X=[X_{1},X_{2},...,X_{S}]$ 以及对应的标签 $Y=[Y_{1},Y_{2},...,Y_{S}]$ 。在推理期间，模型则利用输出的脸部活性表示来区分真假人脸。

如下图所示，作者提出的网络包含三个用于处理图片的编码器 (编码器为 ResNet18，第一层的参数是共享的)：活性编码器 $E_{L}$ 、内容编码器 $E_{C}$ 以及域编码器 $E_{D}$ 。其中， $E_{L}$ 用于提取图像的活性表示，该编码器后面接着一个活性分类器，该分类器利用编码器提取的活性表示来对输入图像进行分类。 $E_{C}$ 则用于提取脸部内容特征。 $E_{D}$ 则用来提取域表示，后面接了一个域分类器，对图像域进行分类。

2）Learning Liveness-Irrelevant Representation

如上图所示，对于内容编码器和解码器，它们分别用来提取以及恢复脸部内容信息，该部分的监督信号为 PRNet 输出的人脸特征，公式如下：

此外，作者使用了额外的监督来确保提取的内容特征不包含活性特征及域特征，公式如下：

对于域表示的编码器和分类器，它们分别用来提取域特征以及对域特征进行分类，公式如下：

其中， $m_{i}$ 为对应标签的 one-hot 编码。

同样地，作者也使用了额外的监督来确保所学的域特征不包含活性特征，公式如下：

3）Learning Domain-Invariant Liveness Representation

给定源域 i 中的第 j 张图片，作者使用 $E_{L}$ 来提取图片的活性表示， $C_{L}$ 则用于确定输入的人脸图像是真实的还是伪造的。为了更好地区分真假人脸图像，作者采用简化的大边距余弦损失（LMCL）函数作为目标函数，公式如下：

其中， $\alpha$ 为超参数， $W_{0}$ 和 $W_{1}$ 为分类器中的参数。通过该公式学习到的 $W_{1}$ 和 $W_{0}$ 将分别代表真假图像的域不变活性表示的 prototypes。随着图像域信息的解耦，活性表示的学习不仅可以区分真实的人脸图像和欺骗攻击的人脸图像，还可以强制最小化类内变化。