活体检测论文研读4——A SURVEY ON ANTI-SPOOFING METHODS FOR FACE RECOGNITION WITH RGB CAMERAS

最新推荐文章于 2022-08-30 17:03:43 发布

Moon_Boy_Li

最新推荐文章于 2022-08-30 17:03:43 发布

阅读量749

点赞数 1

文章标签：计算机视觉机器学习深度学习

本文链接：https://blog.csdn.net/murphlaw/article/details/118720297

版权

介绍 Introduction

文章首先介绍了 Face Recognition 的历史，然后梳理了攻击的类别：
1.impersonation (spoofing) attacks
随着互联网和社交媒体的出现，越来越多的人分享他们面部的照片或视频，这些文件可以被冒名者用来试图欺骗面部认证系统，以达到模仿的目的。这种攻击也被称为模拟（欺骗）攻击。
2.obfuscation attacks
另一种（研究）类型的演示攻击称为混淆攻击，在该攻击中使用技巧避免被系统识别（但不一定是模拟合法用户的身份）。

简而言之，虽然模拟（欺骗）攻击通常是由愿意模拟合法用户的冒名者执行的，但混淆攻击的目的是确保用户仍然在人脸识别系统的雷达之下。尽管它们的目标完全不同，但这两种攻击都被列在ISO标准专用于ISO生物识别PAD的中。

具体情况可见下图
在这里插入图片描述上述部分称呼解释由下图可以看出

本文贡献：
1.基于现有的人脸PAD方法的类型学，我们提出了它们旨在检测的PAs类型和应用场景的一些特殊性。2.我们提供了超过50种最近的人脸PAD方法的全面回顾，这些方法只需要由嵌入在大多数GCD中的RGB相机捕获的（作为输入）图像。
3.我们提供了2D攻击和3D掩码攻击的可用公共数据库的摘要概述，这对模型训练和测试都至关重要。4.我们报告了广泛的实验结果，并定量比较了在统一的基准、度量和协议下不同的PAD方法。
5.我们讨论了人脸PAD领域中一些研究较少的主题，如未知的PAs和模糊攻击，并为未来的工作提供了一些见解。

Overview of face PAD Methods using only RGB cameras from GCDs

本文中要讨论的方法超过五十种，如下图所示
在这里插入图片描述
表1显示了旨在检测的PA的类型，

1.Liveness cue-based methods

two sub-categories：
1.Motion cue-based methods：基于运动提示的方法在视频剪辑中使用运动线索来区分真实（活）脸和静态照片攻击。这些方法可以有效地检测静态照片攻击，但不能检测具有动作/活动线索的视频回放和三维掩码攻击；
2.Remote PhotoPlethysmoGraphy (rPPG)：远程光密度图(rPPG)是最广泛使用的测量与血液脉搏对应的人脸微强度变化的技术。基于rPPG提示的方法可以检测照片和三维掩模攻击，因为这些PAIs没有显示出面部皮肤特征的周期性强度变化。它们还可以检测到“低质量”的视频回放攻击，因为它们无法显示这些细微的变化(由于捕获条件和/或PAI特性)。然而，基于rPPG线索的方法无法检测到“高质量”的视频回放攻击（显示真实面部皮肤的动态变化）。

2.Texture cue-based methods

基于纹理线索的方法使用静态或动态纹理线索，通过分析呈现给相机的表面的微纹理来检测面部PA。静态纹理线索通常是可以从单一图像中提取的空间纹理特征。相比之下，动态纹理线索通常包含在从图像序列中提取的时空纹理特征中。基于纹理提示的人脸PAD方法可以检测所有类型的PA。然而，他们可能会被“高质量”的3D面具（具有表面纹理模仿面部纹理的面具）所愚弄；

3.3D geometric cue-based methods

基于三维几何线索的方法使用三维几何特征，通常基于三维结构或用户脸或PAI的结构或深度信息/图。基于三维几何线索的PAD方法可以检测平面图像和视频回放攻击，但不能（一般）三维掩码攻击；

4.Multiple cues-based methods

多种基于线索的方法都会考虑到不同的线索。运动特征与纹理特征)检测更广泛的面部面部

5.Methods using new trends

使用新趋势的方法并不一定旨在检测特定类型的PAs，但它们的共同特征是，它们依赖于尖端的机器学习技术，如神经体系结构搜索(NAS)、零镜头学习、领域自适应等。

每种方式细讲

Liveness cue-based methods

基于活性提示的方法是人脸PAD的第一次尝试。基于活力提示的方法旨在检测生命的任何动态生理迹象，如眨眼、口腔运动、面部表情变化和脉搏跳动。它们可以被归类为基于运动的方法（检测眼睛闪烁、嘴巴运动和面部表情的变化）和基于rPPG的方法（检测脉冲）。

1.Motion-based methods

**
1.1 Non-intrusive motion-based methods （基于非侵入性运动的方法）
frequency-based features：Frequency Dynamic Descriptor (FDD) ，head movement
缺点：它的主要局限性在于，它依赖于在视频捕获过程中照明是不变的假设，而这在现实场景中并不总是得到满足的。
optical flows：Optical Flow Lines (OFL)
缺点：这种方法在大多数视频回放攻击中都失败了，而且它可能会被眼镜破坏
eye blinking：在这里插入图片描述
1.2 Intrusive motion-based methods （基于运动的侵入方法）或者interactive methods （交互式方法）
通过随机读出数字观察口型判断是否是真人

2.Liveness detection based on Remote PhotoPlethysmoGraphy (rPPG)
在这里插入图片描述
“高质量”视频重放攻击(具有良好的捕获条件和高质量的PAI)也可以显示真实脸的皮肤吸收/反射的周期性变化。因此，基于rPPG的方法只能检测到低质量的视频回放攻击。

面部的下半部分被检测并提取作为感兴趣区域(RoI)。rPPG信号由每个视频帧的每个RGB通道的ROI中像素的平均RGB值组成。然后对该rPPG信号进行滤波（去除噪声并提取正常脉冲范围），并通过快速傅里叶变换(FFT)转换为频率信号。根据功率谱密度(PSD)为每个颜色通道提取两个频率特征（图7中的[Er、Eg、Eb]和[Γr、Γg、Γb]）。最后，这些（连接的）特征向量被输入到一个SVM中，以区分真实的人脸表现和PAs。
缺点：这种基于rPPG的方法可以有效地检测基于照片的和3D掩码攻击——甚至是高质量的3D掩码——但不能（一般）视频重放攻击。
在这里插入图片描述

首先，rPPG信号从多个面部区域提取，而不仅仅是面部的下半部分。其次，将任意两个局部rPPG信号的相关性作为鉴别特征（假设它们都与心跳的节律一致）。第三，学习了一个置信图，以加权每个区域的贡献：强调包含强心跳信号的鲁棒区域，而包含较少心跳信号（或更多噪声）的不可靠区域则被减弱。最后，将基于加权局部相关的特征输入到SVM(带RBF核)来检测照片和三维掩码PAs。

另外几种衍生发展的方法在此处不再赘述，可以翻阅论文查找。分别是基于深度学习和检测背景来增加抗干扰能力。

Texture cue-based methods

优点：首先，它们在本质上是非侵入性的；其次，它们能够检测几乎任何已知攻击，例如，基于照片的攻击，视频回放攻击，甚至还有一些3D面具攻击
分类为 Static texture-based methods和dynamic texture-based，基于静态纹理的方法通常从一张图像中提取空间或频率特征。相比之下，基于动态纹理的方法则探索了从视频序列中提取的时空特征。

1.Static texture-based methods（基于静态纹理的方法）
2D人脸图像的傅里叶谱比真实的（活的）人脸图像的二维傅里叶谱要少得多。

其余方法：Difference of Gaussian (DoG) filtering;
Contrast-Limited Adaptive Histogram Equalization (CLAHE);
Local Binary Pattern (LBP):在一个真实的人脸和一个平面攻击之间的表面特性和光反射上的差异，可以被LBP特征所捕获
在这里插入图片描述
首先，检测、剪切并归一化为64×64像素图像。然后，将LBPu28、2和LBPu216、2应用于标准化的面部图像上，其分别生成59bin直方图和243bin直方图。所获得的LBPu28、1个图像也被分成3个×3个重叠区域（如中间行所示）。当每个区域产生一个59箱的直方图时，通过其连接可以得到一个531箱的直方图。然后，将所有单独的直方图连接起来，获得一个833箱/维（59+243+531）直方图，并输入给一个非线性SVM分类器，以检测照片/视频回放攻击。
之后LBP方面的延拓工作在论文中可以查找到。如HOG
IQA-based method IQA (Image Quality Assessment)
CNN-based methods（Convolutional Neural Networks）

2.Dynamic texture-based methods（基于动态纹理的方法）
与静态的区别主要是加入了时序
在这里插入图片描述
基于运动放大的方法需要积累大量的视频帧（>200帧），这使得它难以实时适用，导致解决方案不是非常用户友好的

LSTM(nLong Short-Term Memory):

Spatio-Temporal Anti-Spoofing Network (STASN):
STASN由三个模块组成：Temporal Anti-Spoofing Module (TASM), Region Attention Module (RAM), and Spatial Anti-Spoofing Module (SASM).

3D geometric cue-based methods(基于三维几何线索的方法)

基于三维几何线索的PAD方法使用三维几何特征来区分具有具有人脸特征的三维结构的真实人脸和二维平面PA。最广泛使用的三维几何线索是由RGB相机捕获的二维图像重建的三维形状，和面部深度图，即照相机与人脸区域中的每个像素之间的距离。

1. 3D shape-based methods(基于三维形状的方法)

如下图，从真实剖面重建的三维结构保留了其三维几何结构。相比之下，剖面图中平面照片的重建结构只是一条显示照片边缘的线

在这里插入图片描述

2.Pseudo-depth map-based methods(基于伪深度映射的方法)

其想法是利用实际面的深度图在深度图中具有不同的高度值，而平面攻击的深度图保持不变（见图23），来区分真实的三维面和平面PA之间。

Face Anti-Spoofing Temporal-Depth networks (FAS-TD) （人脸反欺骗时间深度网络）
2018年，王等人表示通过提出人脸反欺骗时间深度网络(FAS-TD)，将视频中基于单帧的深度图PAD方法扩展到视频中。FAS-TD网络用于捕获给定视频的运动和深度信息。通过将光流引导特征块(OFFB)和卷积门关重归单元(ConvGRU)模块集成到深度监督神经网络架构中，提出的FAS-TD可以很好地捕捉真实面孔和平面PA的短期和长期运动模式。所提出的FAS-TD进一步提高了基于深度图的PAD方法使用单帧作为[38,34]的性能，并取得了最先进的性能。

由于伪深度映射方法对检测平面PA非常有效，因此在基于多线索的PAD方法中，伪深度映射经常与其他线索一起使用。此外，由于伪深度映射是最近引入的人脸PAD的线索之一，它们在最近的方法中被广泛使用。

Multiple cue-based methods（多种基于线索的方法）

多模态系统（Multi-modal systems）本质上比单模态系统（ uni-modal systems）更难被欺骗。因此，一些伪造面部欺骗的尝试结合了基于不同模式的方法，如可见红外、热红外或三维信号。然而，这种特定的硬件通常在大多数GCD中不可用，这使得这些多模态解决方案无法集成到大多数现有的人脸识别系统中。在这项工作中，我们专注于多种基于线索的方法，它们只使用RGB相机获得的图像。

1.Fusion of liveness cue and texture cues（活体线索和纹理线索的融合）
2.Fusion of liveness and 3D geometric cues（活体和三维几何线索的融合）
3. Fusion of texture and 3D geometric cues（纹理和三维几何线索的融合）

New trends in PAD methods

这些新的想法是：
1.新的面部伪影检测方法
2.学习针对人脸PAD的最合适的神经网络架构。使用神经架构搜索(NAS)
3.解决泛化问题，特别是针对在学习数据集中没有（或不充分）表示的攻击类型。

1.Neural Architecture Search (NAS) based PAD methods（基于神经体系结构搜索(NAS)的PAD方法）
在这里插入图片描述
A Multiscale Attention Fusion Module (MAFM)

2. Zero-Shot Face Anti-spoofing (ZSFA)

3.Domain adaption based PAD methods（基于域自适应的PAD方法）
如果在观察到的多个源域和（隐藏但相关的）目标域下面存在一个广义特征空间，则可以应用域自适应
在这里插入图片描述

现有的反欺骗数据集及其主要局限性

数据集采集流程：
在这里插入图片描述
现有公开数据集汇总表：
对于每个数据集的细节介绍在这里不在详细展出，需要时再看。

Experimental evaluation（实验评价）

1.Evaluation protocol（评估方案）

a) Dataset division
b) Intra-database vs inter-database evaluation

2 Evaluation metric（评价指标）

a)Half Total Error Rate (HTER)
在这里插入图片描述
b)Average Classification Error Rate (ACER)
自2017年和[181]中提出的工作以来，人们通常使用标准化ISO/IEC30107-3度量[16]中定义的指标：攻击演示分类错误率(APCER)攻击分类错误率和真实分类错误率(BPCER)(在一些研究论文中也称为正常演示分类错误率(NPCER))来报告性能。这两个指标分别对应于错误接受率(FAR)和错误拒绝率(FRR)，但对于获得APCER，对每种PAI/类型的攻击分别计算FAR，而APCER被定义为最高的FAR(即最成功的攻击类型)。与HTER类似，然后使用在验证集上实现EER的模型参数将平均分类错误率(ACER)定义为APCER和BPCER的平均值：
在这里插入图片描述
在HTER和宏碁标量值之外，接收器操作特性(ROC)曲线和曲线下的面积(AUC)也常用于评估PAD方法的性能。后者的优点是，它们可以对模型对不同参数集值的性能进行全局评估。

Result的数据评估在论文的表中有显示，此处不再一一列出。

Discussion

尽管模糊攻击检测到目前为止研究比模拟攻击检测少，这个话题很可能在未来越来越值得研究，考虑到几个因素的结合，如在公共场所的视频监控，地缘政治问题包括恐怖袭击的风险在世界一些地区，和最近的技术发展，希望研究人员能够解决这个问题。

本篇论文总结了50多种最具影响力的人脸PAD方法，这些方法可以在用户只能访问通用消费者设备的RGB相机的情况下工作。
文章虽长，介绍的方法也有些已经过时，但是对于我这种科研小白来说，算是很好的入门文章了。
就从这一天开始，做一些自己愿意做也对社会有益的事情吧，这是我选择的道路，我希望我能坚持。

Moon_Boy_Li

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫