2020-用多通道卷积神经网络学习单类特征用于人脸表现攻击检测

最新推荐文章于 2024-07-17 08:28:44 发布

Jennifer_msn

最新推荐文章于 2024-07-17 08:28:44 发布

阅读量2.3k

点赞数 1

分类专栏：阅读笔记论文翻译文章标签： cnn 神经网络

本文链接：https://blog.csdn.net/JngFei/article/details/121081346

版权

阅读笔记同时被 2 个专栏收录

11 篇文章 1 订阅

订阅专栏

论文翻译

10 篇文章 0 订阅

订阅专栏

2020年，Anjith George等人，期刊：TIFS，CCFA刊，Learning One Class Representations for Face Presentation Attack Detection Using Multi-Channel Convolutional Neural Networks

摘要：

人脸识别已经发展成为一种广泛使用的生物识别模式。然而，它对于演示攻击的脆弱性构成了严重的安全威胁。虽然表示攻击检测(pad)方法试图解决这个问题，但它们常常无法对未见的攻击进行泛化。

该篇文章主要进行了几项工作：1，新提出一个基于单类分类器的PAD框架one-class classifier，该框架使用的特征representation是通过一个多通道卷积神经网络学习的。MCCNN（multi-channel convolutional netural.

2、引入了一种新的损失函数，迫使网络在远离攻击表示的情况下，学习真实类的紧致嵌入。真实类bonafide class compact embedding

3、在这些嵌入上使用单类高斯混合模型来执行PAD任务。

4、该框架引入一种新的方法，从真实（bonafide）和可用的（已知的）攻击类别中学习健壮的PAD系统，这样做的原因是收集真实数据（bonafide data）和更简单的攻击比收集各种代价高昂的攻击要容易的多。

5、该框架在公开WMCA数据库上进行了评估，数据库中包含各种2D、3D攻击。

效果：在不可见攻击协议中的优异性能表明了该方法的有效性。

数据、软件、协议公开提供。

1引言

人脸识别技术发展成熟，但是易受呈现攻击。呈现攻击是指使用工具进行攻击，意图影响生物特征识别系统的正常运行。通常，诸如颜色、纹理、动作、生理线索、和基于CNN的方法等特征被用于检测2D打印和视频重放之类的攻击。

然而，检测3D面具和部分攻击等复杂攻击是具有挑战性的，并对人脸识别系统的可靠性构成严重威胁。现有主流文献中提供的大多数呈现攻击检测方法（PAD）方法都试图解决有限数量的呈现攻击工具和可见光谱图像上的问题。虽然在解决2D表示攻击方面取得了一定的成功，但算法在真实感3D面具和其他类型的攻击中的性能较差。随着攻击工具质量的提高，仅在可见光光谱上就很难区分真实和呈现攻击。此外，考虑到现实世界中存在各种各样的2D、3D和部分攻击，仅在视觉频谱中使用PAD对于安全关键型应用来说是具有挑战性的，而且是不够的。

部分攻击是指攻击工具仅覆盖部分面部的攻击。这些攻击很难被发现，因为它们在大多数面部区域看起来都很真实，而且它们可以很容易地欺骗整体活跃度检测系统。

多通道方法被认为是一种替代方法[11]-[14]，因为它们使用来自不同通道的互补信息来提高对真实和攻击的区分。在多通道场景中，使用的附加通道可以是任何可以提供互补表示信息的通道，例如深度通道、红外通道和热通道。多通道PAD方法在各种各样的攻击环境中更有希望，因为它们使PAD系统更难被愚弄。

即使使用多个通道，PAD的主要问题之一是它对看不见的攻击（unseen attacks）的泛化能力很差[14]。这一点尤其重要，因为在开发PAD系统的时候，预测到所有可能的攻击是不可能的。恶意攻击者总是可以想出新的攻击来愚弄PAD系统。在这种情况下，对看不见的攻击具有健壮性的PAD系统至关重要。

此外，虽然收集2D打印和回放等攻击的数据相对容易，但制作具有挑战性的演示攻击工具(PAI)(如硅胶面具)的复制品通常非常昂贵[15]，而且需要大量资源。在这种情况下，理想的做法是有一个框架，它可以仅用真实的（bonafide）来训练，或者用真实和易于制造的演示攻击工具（PAIs）来训练。

在现实世界的场景中，可以假设所有的表示攻击都是看不见的，因为不可能预测P AD系统可能遇到的所有先验变化。图1显示了一个看不见的攻击场景中决策边界的小示例。

图示表示已知攻击和未知攻击类别的嵌入空间。红色虚线显示了在训练集中只存在真实类和已知攻击时学习的决策边界，这导致将未知攻击错误分类为真实类。如果可以学习单类决策边界（绿色虚线），则已知和未知攻击都可以正确分类。

在典型PAD数据库中的性能表现可能不能代表PAD系统在现实世界条件下的性能。这就要求PAD算法对看不见的攻击具有健壮性。由于与复杂的PAI相比，从更直接的攻击中收集数据(在工作量和成本上)很容易，因此我们试图利用培训阶段可用的PA类的信息来学习表示法(同时不过度拟合可用的攻击)。

为了实现这一点，我们提出了一种基于单类分类器的框架，其中特征表示用CNN学习，使其具有区分性。该框架的核心是一个多通道CNN，他被训练成使用特定的损失函数来学习嵌入。该方法的目的是在利用PAD任务的鉴别信息的同时，学习一种真实类的紧凑表示。

文章的主要贡献如下：

提出一种新的基于多通道单类分类器的未见攻击检测方法（unseen attack detection）
提出一种新的损失函数，它利用已知攻击提供的信息，学习PAD任务重人脸的紧凑和区分表示。

单类分类器中使用的特征是通过多通道CNN框架学习的。在包含各种2D和3D攻击的WMCA数据库中对该方法在已知和不可见攻击协议下进行了评估，其性能明显优于在不可见攻击协议下的基线。我们还在MLFP和SiW-M数据集中使用RGB通道进行了实验。

此外，复制结果的源代码和协议已公开提供，并可从以下链接1获取。

论文的其余部分组织如下。第2节介绍了相关工作，重点是检测看不见的攻击。第3节概述了拟议的框架。第四节展示了广泛的评估，与基线方法的比较，以及消融研究。第五节讨论了结果的重要性，第六节给出了结论。

2相关工作

大多数关于人脸垫的文献主要集中在2D攻击上，并且使用基于特征的方法[5]-[9]或基于CNN的方法。最近，与基于特征的方法[10]、[16]-[18]相比，基于CNN的方法更成功。这些方法通常利用“重新捕获”过程中的质量下降，通常仅用于检测2D打印和重放等攻击。像3D面具这样的复杂攻击更具挑战性，并对人脸识别系统的可靠性构成严重威胁。

这些方法大多以二分分类的方式处理P-AD问题，导致分类器对已知攻击的过度拟合，导致对未知攻击的泛化能力较差。我们将进一步的讨论集中在检测看不见的攻击上。但是，针对未知攻击的方法也必须对已知攻击执行准确的操作，这一点很重要。一类分类器(OCC)是这类任务的一种简单的解决方案。OCC提供了一种直接的方式来处理看不见的攻击场景，只需对真实类的分布进行建模即可。

Arashloo等人[19]和Nikisinset等人[20]已经证明了一类方法对抗看不见的攻击的有效性。尽管这些方法在不可见攻击场景中的性能优于二进制分类器，但在已知攻击协议中的性能低于二进制分类器。熊和AbdAlmageed[21]提出了使用自动编码器和从图像中提取纹理特征的一类分类器的不可见PAD方法。然而，与目前基于CNN的方法相比，该方法的性能非常差。基于CNN的方法优于大多数基于特征的PAD任务基线。因此，在CNN框架中显然需要一类分类器或异常检测器。单一类模型的缺点之一是它们没有使用已知攻击提供的信息。利用来自已知攻击的信息的异常检测器框架可能更有效。

Perera和Patel[22]提出了一种用于一类迁移学习的方法，其中来自无关任务的标记数据用于特征学习。他们使用两个损失函数，即描述性损失和紧凑性损失来学习表示。来自感兴趣类别的数据用于计算紧凑性损失，而外部多类别数据集用于计算描述性损失。将学习到的模型在使用另一个数据库进行分类时的准确性作为描述性损失。然而，在PAD问题上，这种方法是有挑战性的，因为真实类和攻击类看起来非常相似。

Fateifaret al.[23]提出了一种集成多个单类分类器的方法，以提高PAD的泛化能力。他们为融合前的一个班级分数引入了特定班级的归一化方案。分类器池中使用了7个区域、3个一类分类器和来自3个CNN的表示。虽然他们的方法获得了比客户端独立阈值更好的性能，但性能低于基于CNN的最新方法。具体地说，许多基于CNN的方法已经在重放-攻击和重放-移动数据集上获得了0%的HTER。此外，在这项工作中没有评估具有挑战性的看不见的攻击场景。

Pérez-Caboet al.[24]从异常检测的角度提出了PAD公式。提出了一种深度度量学习模型，该模型使用三重焦点损失作为“度量-软极大值”的正则化，迫使网络学习有区别的特征。通过这种方式学习的特征与具有RBF核的支持向量机一起用于分类。他们在一个仅限RGB的聚合数据集上进行了几次实验，显示了他们提出的方法所做的改进。然而，分析主要局限于纯RGB模型和2D攻击。这项工作不考虑具有挑战性的3D和部分攻击。具体地说，不评估挑战未知攻击(2D与3D)的有效性。

最近，Liuet al.[25]提出了一种检测未知欺骗攻击的方法，称为Zero-shot face Antispoofing (ZSFA)。他们提出了一种深层树网络(Deep Tree Network，DTN)，它以无监督的方式将攻击样本划分为语义子组。其网络中的每个树节点由卷积剩余单元(CRU)和树路由单元(TRU)组成。目标是将未知攻击路由到最合适的叶节点，以便对其进行正确分类。他们在他们的方法中考虑了各种各样的攻击，与考虑的基线相比，他们的方法取得了更好的性能。

Jaiswalet等人[26]提出了一种端到端的PAD深度学习模型，该模型使用无监督的对抗性不变性。在他们的方法中，区分信息和滋扰因素在对抗性环境中被分离。他们表明，在相同的基础架构下，通过只保留区别性信息，P AD性能得到了改善。Mehtaet等人[27]训练了一个结合了交叉熵和焦点损失的Alexnet模型。他们从Alexnet中提取特征，并针对P AD任务训练两类支持向量机。然而，在Oulu和SIW等具有挑战性的数据集上的结果没有报道。

最近，Engelsma和Jain[28]利用多个GAN对指纹进行欺骗检测。他们的方法基本上包括只使用真正的样本训练DCGAN[29]。训练结束时，丢弃生成器，将鉴别器用作P-AD分类器。他们综合了不同GAN在不同特征上运行的结果。然而，这种方法可能不适用于人脸图像，因为重新捕获的图像看起来与真实样本非常相似。

在安全关键应用中，多年来已经提出了扩展范围方法[11]-[15]、[30]-[32]，以实现可靠的P-AD性能。即使是这些方法也不能概括为看不见的攻击。

Wanget等人[33]提出了一种基于ResNet网络的多模态人脸呈现攻击检测方法，该方法同时使用空间和通道关注度。具体地说，该方法是为CASIA-SURF[34]数据库量身定做的，该数据库包含RGB、近红外和深度通道。该模型是以单个通道和融合数据作为输入的多分支模型。每个输入通道都有自己的特征提取模块，提取的特征在后期融合策略中进行拼接。然后是更多的层次，以学习P AD的区别表征。网络训练由中心损失和软最大损失两个方面进行监督。其中一个关键点是利用空间和通道注意力来充分利用来自不同通道的互补信息。虽然该方法在CASIASURF数据库中取得了较好的效果，但没有解决隐形攻击检测这一具有挑战性的问题。

Parkin和Grinchuk[35]提出了一种基于ResNet的多通道面垫网络。本质上，他们的方法由每个通道的不同ResNet块组成，然后进行融合。在融合通道之前使用压缩和激励模块(SE)，然后使用剩余块。此外，它们还在多个级别添加聚合块，以利用通道间相关性。他们的方法在CASIA-SURF[34]数据库中获得了最先进的结果。然而，文[1]中提出的最终模型是由24个神经网络组合而成的，这些神经网络使用不同的攻击特定折叠、预先训练的模型和随机种子进行训练，这将大大增加计算量。

从上面的讨论可以看出，在PAD任务中，单类分类器可以很好地替代二类分类器。然而，用于一类分类器的特征应该是有区别性的和紧凑的，以优于二分分类器。

3所提方法

从实际的角度来看，不可能预测到所有的攻击类型并将他们纳入训练集。这反过来又使PAD任务成为广义上看不见的分类问题。一般来说，我们甚至可以认为来自不同重放设备的攻击是看不见的攻击。通常，单类分类器非常适合于这样的离群点检测任务。然而，在实践中，与已知攻击的二分类器相比，单类分类器的性能较差，因为它们没有利用来自已知攻击的有用信息。理想情况下，PAD系统在已知和不可见的攻击场景中都应该表现良好。

显然，需要一种方法来学习紧凑的单类表示，同时利用已知攻击中的区分信息。虽然收集攻击可能很困难，成本也很高，但收集真实bonafide sample样本却相当容易。需要一种新的分类策略来处理可用攻击类别有限的现实场景。

尽管单类分类器可以有效地用于分类，但OCC单类分类器的有效使用要求特征表示紧凑，同时包含PAD任务的鉴别信息。在所提出的框架中，我们使用基于CNN的方法来学习特征表示。提出了一种新的损失函数，利用已知攻击类别学习一个真实样本的特征表示。

A. 单类对比损耗的计算OCCL

考虑用于P AD的典型CNN架构，其中输出层包含一个节点，并且使用的损耗函数是二进制交叉熵(BCE)，其定义如下：

其中y是真值，y=0表示攻击，y=1表示真实，p是概率。

当仅使用BCE损失进行训练时，网络根据训练集中出现的真实和攻击来学习决策边界。然而，当在测试遇到看不见的攻击时，它可能不会泛化，因为它可能会过度拟合训练集中“已知”的攻击。

为了克服这个问题，我们提出了在嵌入层操作的“单类对比损失”(OCCL)函数。提出了单类对比损失(OCCL)函数作为辅助损失函数，并与二进制交叉熵损失相结合。使用从CNN倒数第二层获得的特征地图作为嵌入。损失函数的灵感来自于人脸识别应用中通常使用的中心损失[36]和对比损失[37]。

PAD应用中的中心损失的主要问题是，损失函数对大的类内距离进行惩罚，而不关心类间距离。对比中心损失[38]试图通过在公式中增加类之间(类间)的距离来解决这个问题。然而，对于P AD问题，将攻击类建模为集群并找到攻击类的中心并不是一件容易的事。攻击可能有不同的类别：2D、3D和部分攻击，强迫它们在嵌入空间中聚集在一起并不理想。攻击的嵌入只需要在嵌入空间中远离真实集群。因此，我们只把紧凑度约束放在真实类上，而强制演示攻击的嵌入远离真实类。

为了表示损失函数，我们从Hadsellet等人提出的对比损失函数方程开始。

其中W代表网络的权重， X1,X2是一对点，Y是配对的标签，即它们是否属于同一类。m是边界，Dw是两个样本之间的距离函数。数据以对(X1，X2)的形式提供，距离函数Dw可以计算为欧几里德距离。

现在，在我们的损失公式中，关键的区别在于我们如何定义Dw。在原始对比损失中，Dw是样本之间的距离。在我们的例子中，我们需要在嵌入空间中紧凑地表示真实样本。同时，我们希望在嵌入空间中最大化真实聚类和攻击样本之间的距离。这可以通过将DCw定义为离真实类中心的距离来实现，如下所示。

其中是样本的嵌入，是真实类在嵌入空间的中心。

在训练期间，真实类的中心会在每一次mini-batch中更新。

其中和分别表示新、旧真实类的中心。α是一个标量，它可以防止小批次中类别中心的突然变化。e表示当前小批次中的真实样本与前一个中心的嵌入之间的差异，N表示小批次中的真实样本数。

结合这些方程，我们的辅助损失函数变成：

其中DCw是样本和真实类中心之间的欧氏距离，Y是真值，Y=0是攻击，Y=1是真实（注意：由于真实值的约定，标签的更改来自标准法）。值得注意的是，所提出的损失函数不需要样本对，这是使用对比损失时的要求。这使得训练模型变得更容易，而不需要在训练期间显式地选择对。

这种辅助损失使真实紧凑的表象更接近于真实聚类的中心，并惩罚了比边缘m更近的攻击样本。而比边缘更远的攻击样本则不受惩罚。图2显示了作用于真实和攻击样本嵌入的损失函数。

图示：作用于嵌入空间的损失函数。左图：真实表征被拉近真实类的中心（绿色），而攻击的嵌入（红色）被强制超出边界。在边界外的攻击样本不贡献任何损失。右图：离真实类中心距离的函数损失。

我们将提出的损失函数与标准的二元交叉熵相结合进行训练。要最小化的组合损失函数如下所示

其中是整个CNN的损失，

分别是二进制交叉熵和单类对比损失。λ表示用于设置每个损失函数的权重的标量值。在我们的实验中，我们将λ的值设置为0.5。

组合损失函数试图学习可用攻击和真实样本之间的决策边界，而辅助损失试图将真实类的特征紧凑表示在嵌入空间中。我们预计，与仅使用BCE学习的网络相比，以这种方式学习的决策边界在不可见攻击中会更加健壮。以这种方式获得的嵌入与用于PAD任务的单类分类器一起使用。

B.拟议框架的组成部分

拟议框架的不同阶段如下所述。

1）预处理：在使用来自传感器的数据之前，执行由人脸检测、对齐和归一化组成的预处理阶段。在颜色通道中使用MTCNN算法[39]进行人脸检测，然后使用监督下降法(SDM)[40]进行人脸标志点检测。经过这些阶段后，将人脸图像对齐并转换为分辨率为128×128像素的灰度。由于所有通道都是对准的，因此这些面部位置也用于其他非RGB通道的对准。此外，执行使用平均绝对偏差(MAD)[41]的归一化以将原始16位值转换为8位范围。图3显示了预处理阶段后的示例图像。

图示：来自刚性面具攻击的预处理图像；显示的通道分别是灰度、红外、深度和热敏通道。对通道进行人脸检测、对齐和归一化预处理。

2）网络结构和训练：由于所使用的数据是多通道的，我们使用了文献[14]中提出的多通道PAD框架--多通道卷积神经网络(MCCNN)作为基础网络。MCCNN的主要思想是利用预先训练的人脸识别网络，使用来自多个通道的联合表示来完成PAD任务。MCCNN架构由专门适用于多通道PAD任务的LightCNN模型[42]的扩展版本组成。将预先训练好的LightCNN人脸识别模型扩展为支持多通道，并将所有通道的嵌入进行拼接，并在此联合表示层上添加两个完全连通的层用于PAD任务。这种体系结构的优点是在训练阶段只适合较低层的特征(称为领域特定单元(DSU)[43])和较高层次的全连接层。第一完全连接层包含十个节点，第二层只包含一个输出节点。Lightcnn 部分的高级特性在所有模式之间是共享的。这种方法有两个主要优点: 第一，参数数量较少，因为高级特征在不同模式之间是共享的; 第二，只适用于 DSU 和最终的全连接层，减少可能的过度拟合，因PAD数据库通常规模较小。根据经验得到了一组最优的层次，并将其应用于基准层和提出的方法中。

在我们提出的方法中，我们使用同样的MCCNN结构，并且倒数第二个完全连接层的输出作为嵌入。为了量化我们方法的有效性，我们在这个网络结构上进行实验，同时使用嵌入和最终输出来计算损失。图4显示了所提出的框架的示意图。在训练时，同时考虑两种损失，并选择与最低验证分数相对应的模型。值得注意的是，在CNN训练时，同时使用了真实样本和(已知)攻击样本。在CNN训练后，冻结网络权值，并对真实样本进行前馈以获得嵌入。

图示：所提架构的示意图。卷积神经网络CNN结构由两个损失函数训练，然后作为一个固定的特征提取器冻结权重。单类GMM仅使用从Bonafide class真实类获得的嵌入来训练。

3）单类高斯混合模型GMM：在用BCE和OCCL训练MCCNN后，网络的训练权值被冻结，并作为PAD任务的固定特征提取器。现在已经有了紧凑的表示，目标是使用所获得的特征来学习单类分类器。我们使用单类高斯混合模型来完成这项任务。单类GMM是一种产生方法，用于对所提出的框架中的真实类的分布进行建模。

高斯混合模型定义为K个多变量高斯分布的加权和，如下所示：

其中是权重、均值和GMM的协方差矩阵。

使用期望最大化(EM)[44]来计算GMM的参数。为每个分量计算完整的协方差矩阵，并且根据经验选择要使用的分量的数量为5个(K=5)。

在训练阶段，只使用从真实类获得的嵌入来训练单类GMM。

在测试阶段，一个样本首先被传入到网络中以获得嵌入x，然后反馈送到单类GMM中，得到对数似然分数：

综上所述，该框架可以被认为是一种基于单类分类器的PAD框架。最重要的区别在于，所使用的功能都是后天习得的。所提出的损失函数迫使CNN利用已知攻击类别的信息来学习真实类的紧凑表征。训练该框架的算法如下：

C. 实时细节

为了增加样本的数量，在训练中使用了概率为0.5的随机水平翻转的数据增强。adam优化器[45]用于最小化组合损失函数。

学习速率为1×10−4，体重衰减参数为1×10−5。该网络在GPU网格上进行了50个单元的训练，批次大小为32。选择DEVSET中对应于最小验证损失的模型作为最佳模型。对于四通道模型，MCCNN结构的参数约为131M，GFLOPS约为14.5GFLOPS。实现是使用PyTorch[46]库完成的。

4实验

为了评估该方法的有效性，我们在三个公开可用的数据库上进行了实验，分别是WMCA[14]、MLFP[32]和Siw-M[25]数据集。最近发布的CASIA-SURF[34]数据库还包括多通道数据，即颜色、深度和红外通道，以及一套有限的攻击工具。然而，来自传感器的原始数据并不公开；在公开可用的数据库版本中，图像通过自定义预处理进行掩蔽和缩放，严重降低了深度和红外通道的动态范围。此外，不能保证通道之间的对准。因此，由于上述限制，我们不能将我们的框架用于CASIA-SURF数据库。

A.WMCA Dateset

我们在WMCA(Multi-Channel Presentation Attack)2数据库上进行了大量的实验，该数据库共包含来自72个身份的1679个真实性和攻击企图的视频样本。该数据库包含同时收集的四个不同通道的信息，即颜色通道、深度通道、红外通道和热通道。该数据库包含了大约80种不同的演示攻击，它们构成了七种不同的攻击类别：打印、重放、滑稽眼镜、假头、刚性面具、弹性硅胶面具和纸质面具。图5显示了攻击类别的RGB可视化，图6显示了不同的会话。有关WMCA数据库的详细信息可以在出版物[14]中找到。表I显示了每个类别中样本数量及其类型的统计信息。我们在WMCA dataSet 中制定了具有挑战性的协议，以执行一组广泛的评估，以模拟真实世界中看不见的攻击场景。

1）WMCA中的协议：为了测试算法在已知和不可见攻击场景中的性能，我们在WMCA数据集中创建了三个协议。这些协议如下所述。

grandtest：这是WMCA数据库可用的最大测试协议，在这里，所有的攻击类型在训练集、测试和评估集中的比例几乎相等。攻击类型和真实样本分为三个文件夹，用户ID在这三个集合中是不相交的。每个呈现攻击工具都有单独的用户ID。TRAIN、DEV、EVAL拆分的方式使得特定的PA工具将只出现在一个文件夹中。
unseen-2D：在该协议中，我们使用了与grandtest同样的分类策略，然后从训练和开发组中删除了所有2D攻击，评估集只包含真实和2D攻击。这模拟了系统在遇到2D攻击时的性能，2D攻击在训练中没有见过。
unseen-3D：在该协议中，我们使用了与grandtest同样的分类策略，然后从训练和开发组中删除了所有3D攻击，评估集只包含真实和3D攻击。这模拟了系统在遇到3D攻击时的性能，3D攻击在训练中没有见过。这是最具挑战性的协议，因为模型在训练中只看到更简单的2D攻击，在测试中会遇到具有挑战性的3D攻击。

当最大测试协议模拟已知的攻击场景时，其他协议则模拟看不见的攻击场景。所有协议都公开提供。

B.MLFP Dataset

MLFP中的协议：为了模拟已知和未知的攻击场景，我们在MLFP数据集中创建了三个新协议。有两种类型的攻击，即打印攻击和掩码攻击。由于数据集的小尺寸，只创建了两个集，即训练集和贬值集。我们使用训练集的一个子集(10%)进行模型选择。这些协议如下所述

grandtest：该协议模拟已知的攻击场景。这两种攻击都存在于训练和评估集合中。然而，受试者和PA在两组中是不相交的。
unseen-print：在该协议中，训练集只存在真实和面具攻击；评估集仅包含真实和打印攻击。这模拟了看不见的攻击场景。
unseen-mask：在该协议中，训练集只存在真实和打印攻击；评估集仅包含真实和面具攻击。这模拟了看不见的攻击场景。

C.SiW-M Dataset

1)SiW-M中的协议：为了模拟看不见的攻击场景，我们使用SiW-M[25]数据集提供的留下一次(Loo)测试协议。协议仅由列车和设备集组成。在每个LOO协议中，训练集由80%的实时数据和12种类型的欺骗攻击组成。评估集由20%的真实性数据和训练阶段遗漏的攻击组成。被试的非理想集合是不相交的内部集合和评价集合。列车集的子集(5%)用于模型选择。此外，我们还创建了agrandtest协议，专门用于跨数据库测试，其中包含所有文件夹中的所有攻击类型。

D.评估指标

攻击呈现分类错误率(APCER)、善意呈现分类错误率(BPCER)和平均分类错误率(ACER)。使用1%的BPCER阈值来计算阈值在训练dev集。文中还报道了APCER和BPCER在dev集和eval评估集上的分布。此外，所有协议中还显示了实验的ROC曲线。

E.基线

我们已经实施了三个基于特征的基线和两个基于CNN的基线。为了公平比较，所有基准都是多通道方法，并使用相同的四个通道。此外，还添加了仅限RGB的CNN模型进行比较。以下是基线的简短描述以及使用的缩略语：

MC-RDWT-Haralick-SVM：该基线是[32]中提出的RDWT-Haralick-SVM方法的多通道扩展；所有通道的图像经过预处理后被堆叠在一起。对于每个通道，将图像划分为一个4×4的网格，并将RDWT分解得到的Haralick[47]特征从所有通道的所有网格中连接起来，得到联合特征向量。关节特征与PAD的线性支持向量机结合使用。

MC-RDWT-Haralick-GMM：这里的特征提取阶段是相同的ASMC-RDWT-Haralick-SVM，使用的分类器是单类GMM。在训练该模型时，只使用真实的样本。添加此模型是为了展示单类模型在不可见攻击场景中的性能。

MC-LBP-SVM：这里，同样，首先对所有通道执行相同的预处理。此后，计算来自所有分量通道的LBP表示的空间增强直方图，并将其连接到特征向量。提取的特征被馈送到支持向量机进行PAD任务。

DeepPixBiS：这是基于CNN的系统[10]，使用二进制和像素二进制损失函数进行训练。此型号仅使用P AD的RGB信息。

MC-ResNetPAD：我们重新实现了该架构，从[35]扩展到四个通道，基于它们的开源实现。该方法在“CASIA-SURF”挑战中获得了第一名的解决方案。为了进行公平的比较，我们没有使用全体，而是使用了[35]中建议的最好的预先训练的模型。

MCCNN(BCE)：这是文献[14]中描述的多通道CNN系统，在最大测试协议中实现了最先进的性能。该模型仅使用二进制交叉熵(BCE)损失进行训练。

所有描述的基线方法都是可重复使用的，有关参数的详细信息可以在我们的开放源码包中找到。

F.在WMCA数据集上的实验和结果

我们已经在WMCA的三个不同协议中测试了基线和所提出的方法。该方法称为MCCNN (BCE+OCCL) - GMM。

MCCNN(BCE+OCCL)-GMM：这里，使用两种损失训练的MCCNN的真实嵌入被用来训练GMM，在评估阶段，来自一类GMM的分数被用作PAD分数。

在每一个协议的结果描述如下：

1）在grandtest协议的实验：大规模测试协议模拟已知的攻击场景。表二列出了grandtest方案中的结果。该方法的性能比基于特征的方法有较大幅度的提高，达到了预期的效果。使用单类模型训练的MC-RDWT-Haralick-GMM模型效果较差。有趣的是，使用与二进制分类器相同的特征训练的MC-RDWT-Haralick-SVM模型的性能要好得多。这显示了单类分类器在已知攻击场景中的一个弱点，因为它们在训练中不使用已知攻击。与Tomc-ResNetPAD相比，MCCNN(BCE)具有更好的性能。训练为二进制分类器的eMCCNN(BCE)在该协议中取得了最好的性能。提出的MCCNN(BCE+OCCL)-GMM方法具有与MCCNN(BCE)相当的性能。这表明单类GMM分类器的性能与二进制分类器相当，只要它们用紧凑的特征表示进行训练。

2）在unseen-2D和unseen-3D协议下的实验：unseen-2D和unseen-3D协议模拟了看不见的攻击场景。unseen-3D协议是最具有挑战性的协议，因为他只接受过2D打印和回放攻击的训练，而在评估集eval set中遇到了各种各样的3D攻击，如硅胶面具、假头、人体模型等。

大多数方法在看不见的2D协议中执行得很好。这一结果是直观的，因为这些模型针对具有挑战性的3D攻击进行了训练，因此检测2D攻击要容易得多。此外，2D攻击可以很容易地在深度、热和红外通道中识别。即使一些基于特征的方法在该协议中也表现良好，其中MC-RDWTHaralick-GMM方法取得了最好的性能。这显示了单类模型在不可见攻击场景中的优势。提出的MCCNN(BCE+OCCL)GMM方法和MCCNN(BCE)基线方法在该协议中具有相当的性能。值得注意的是，DeepPixBiS模型在此协议中的效果要差得多。这可能是因为当只使用RGB信息时，很难区分真实的bonafide和2D攻击。

看不见的3D协议显示了重要的结果。当遇到不可见的3D样本时，所有基线都显示出较差的性能。这表明二进制分类器不能泛化去挑战看不见的攻击。MCCNN(BCE)方法虽然在体系结构上相似，但在二进制分类环境下训练时无法进行泛化。使用所提出的方法，当单类GMM用于真实表示时，性能提高到9.7%。由于网络学习将真实样本映射到特征空间中的紧凑簇compact cluster，即使在存在看不见的攻击的情况下，为真实样本学习的决策边界也是稳健的。这些unseen attacks的映射与真实聚集类bonafide cluster相离很远，因此很容易从真实的样本中判别出来。这一结果令人振奋，因为该网络在训练中只显示了2D攻击，但它仍然设法在对抗具有挑战性的3D攻击时取得了良好的性能。所有协议的ROC如图7所示。

图示：WMCAdataSet下不同协议值集的DET曲线，图中浅蓝色代表文中所提出的方法，该方法在grandtest、unseen-2D和unseen-3D中都表现的很好，并且对于unseen-3D攻击性能优异。

所有协议的嵌入的t-SNE[48]曲线图如图8所示。来自协议的评估集合中的每个视频的五个帧用于该可视化。虽然在grandtest和unseen-2D协议中，真实和攻击之间的区别是显而易见的，但unseen-3D协议的区别同样是非常明显的。可以清楚地看到，当使用所提出的损失函数时，在unseen-3D协议中，真实类是聚集在一起的，并且远离嵌入空间中的真实类的表示。当仅使用BCE时，看不见的攻击与真实bonafide的嵌入重叠。这清楚地证明了所提出的方法对于unseen攻击检测的有效性。图9显示了与真实类bonafide区域重叠的unseen攻击。可以看到，一些视频回放样本和灵活的硅胶3D面具分别被错误分类为unseen-2D和unseen-3D协议。

图示：WMCADataset中协议嵌入的t-SNE图。第一行(a，b，c)显示了仅使用BCEoss时的嵌入。第二行(d，e，f)显示了使用两个损耗时的嵌入。每种协议的图中都显示了已知攻击和不可见攻击的嵌入情况。Grandtest协议仅包含测试集中已知的攻击。

图示：对于所提出的框架，a)Unsee-2D(图8(E))和b)Unsee-3D((图8(F)协议中更接近于安全的攻击样本。

3）带通道的消融研究：为了评估所提出的框架在不同通道集合上的性能，我们通过包括不同的通道集合来执行消融研究。在本研究中，我们只使用了性能最好的MCCNN(BCE+OCCL)-GM消融方法。在所有组合中，都存在灰度通道，因此它被用作参考。这是必需的，因为来自灰度部分的嵌入也可以用于面部识别。

不同通道的缩写如下所示：·G：灰度图像·D：深度图像·I：红外通道·T：热通道

对这些通道的各种组合进行了实验，结果如表IV所示。需要注意的是，通道G、D和I来自同一设备，而T来自不同的设备。通常，与RGB-D相机相比，热像仪很贵，因此从部署的角度来看，涉及G、D和I子集的组合更有趣。

从表IV可以看出，性能随着信道的移除而降低。然而，在考虑性价比的同时，组合GI获得了合理的性能。不同协议的ROC在图10。

G.在MLFP数据集的实验和结果

我们只使用RGB通道进行实验，因为其他通道没有同时捕获。对于MCCNN框架和其他基线，“R”、“G”和“B”在这些实验中被认为是不同的通道。我们已经在三个新创建的方案中进行了实验，结果如表V所示。

从表V中的结果可以看出，基于CNN的方法优于基于特征的方法。MCCNN框架，加上新提出的Lost，性能优于仅用BCE训练的体系结构，表明了该方法的有效性。

尽管建议的方法比基线执行得更好，但需要注意的是，这里没有利用建议方法的关键点，即利用多通道信息。该架构没有针对RGB中的PAD进行优化，执行此实验只是为了显示新的损耗函数对性能的影响。然而，与所有协议中的基线相比，所提出的方法获得了更好的性能。

H.在SiW-M数据集上的实验和结果

表VI显示了建议框架的性能，同样是在仅限RGB的情况下。在这种情况下，基于CNN的方法比基于特征的方法要好得多。可以看出，与基线方法相比，该方法取得了更好的性能。MCCNN(BCE+OCCL)-GMM模型的性能要好于MCCNN(BCE)模型。可见，新损失函数的加入使得unseen攻击的分类更加准确。

I.跨数据集评估

由于我们无法在多通道数据库和仅RGB数据库之间执行跨数据库评估，因此我们仅使用两个数据集中的RGB通道进行跨数据库评估。我们选择了WMCA和SIW-M数据集，因为它们相对较大，包含各种各样的攻击。

从表七可以看出，有新损失和没有新损失的MCCNN模型表现相当。通常，所有模型在跨数据库设置中的性能都很差。性能不佳可能是由于捕获条件和攻击类型不同造成的。更多种类的攻击使得分类器很难仅使用RGB通道来识别攻击。与仅使用2D攻击的典型跨数据库评估相比，具有如此广泛种类的攻击的跨数据库性能似乎更具挑战性。使用多个渠道[14]可能会缓解这些问题。这也指出了在处理各种各样的攻击时仅使用RGB方法的局限性。

5讨论

通过在WMCA数据库上的实验可以清楚地看出，基于CNN的方法比基于特征的方法有很大的优势。将MCCNN(BCE)方法与所提出的方法进行比较，在已知攻击场景下性能相当。这表明所提出的基于单类GMM的方法的性能与二进制分类相当，这要归功于所提出的损失函数所学习的嵌入。大多数方法在unseen-2D协议中执行得很好，因为它可以在许多通道中被清楚地区分。此外，它还表明，如果网络接受了挑战性攻击的训练，则更简单的攻击很容易被检测到。当性能在grandtest和unseen-2D协议表现相当的情况下，该方法在最具挑战性的不可见3D协议中获得了较大的性能提升。所提出的损失函数迫使网络学习特征空间中的真实bonafide样本的紧凑表示。已知和未知的攻击都被映射远离特征空间中的真实聚类。在这种场景下，单类模型学习的决策边界在识别可见和不可见攻击方面似乎很健壮。

这一结果之所以意义重大，有几个原因。需要注意的是，在unseen-3D协议中，网络仅接受2D攻击的训练，即打印和重放攻击。该方法在包含具有挑战性的3D攻击(如自定义硅胶面具、纸质面具、人体模型等)的测试集中取得了优异的性能。这种方法在现实世界中的影响是非常有希望的。该方法可以用来开发健壮的PAD系统，而不需要制造昂贵的演示攻击。模型可以根据可用性对容易获得的攻击进行训练。该框架利用可用的(已知的)攻击类别来学习稳健的表示，以便于检测已知和不可见的攻击。要注意的是，通过使用联合多通道表示使紧凑表示成为可能。在实际部署场景中，由于计算或成本限制，可能无法使用所有四个通道。在这种情况下，可以通过子选择信道来基于性价比来选择在可用信道上训练的模型。表IV中列出的消融研究结果可以用来确定在这种情况下应该使用哪些通道。

同样，在MLFP和SiW-M数据库上的实验也表明，基于CNN的方法优于基于特征的基线。虽然我们在实验中没有使用多通道信息，但实验结果显示了新的损失函数对性能的改善。将建议的框架与专为RGB PAD设计的网络主干一起使用可能会改善结果。在使用各种攻击进行测试时，跨数据库性能显示了RGB通道的局限性。当仅使用RGB数据时，基线以及所提出的方法的性能较差。这显示了仅适用RGB的PAD在考虑各种攻击时的挑战性。像在WMCAdataSet中那样使用多个通道可能会提高性能。

6结论

人脸呈现攻击检测通常被认为是一项二分类任务，这会导致对已知攻击的过度拟合，导致对未知攻击的泛化能力较差。在本文中，我们将使用一个使用单类分类器的新框架来解决这个问题。提出了一种新的损失函数，迫使CNN对人脸图像学习一种紧凑但有区分性的表示。由于提出了损失函数，真实样本在特征空间中形成了一个紧凑的簇。可以使用单类模型来获得围绕真实bonafide表示的决策边界。已知攻击和未知攻击在特征空间中的映射与真实聚类距离较远，可以用单类模型进行分类。该框架引入了一种新的方法来从真实的和可用的(已知的)攻击类别中学习健壮的PAD系统。该系统已经在挑战WMCA、MLFP和n个dSiW-M数据库中进行了评估，并且在已知和不可见的攻击场景中表现出优于基于基线特征和基于CNN的方法。WMCA中unseen-3D协议性能的大幅提高表明了该方法对不可见攻击的鲁棒性，这要归功于多通道信息。即使在单独与RGB通道一起使用时，所提出的方法也显示出改进。复制结果的源代码和协议已公开提供，以便能够进一步扩展提议的框架。

Jennifer_msn

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
2020-用多通道卷积神经网络学习单类特征用于人脸表现攻击检测

2020年，Anjith George等人，期刊：TIFS，CCFA刊，Learning One Class Representations for Face Presentation Attack Detection Using Multi-Channel Convolutional Neural Networks摘要：人脸识别已经发展成为一种广泛使用的生物识别模式。然而，它对于演示攻击的脆弱性构成了严重的安全威胁。虽然表示攻击检测(pad)方法试图解决这个问题，但它们常常无法对未见的攻击进行泛化。
复制链接

扫一扫

专栏目录