【CVPR2021综述】基于跨模型聚焦损失的RGBD人脸反欺诈

奥比中光3D视觉开发者社区

于 2022-08-23 20:09:21 发布

阅读量531

点赞数

分类专栏： 3D视觉文章标签：深度学习计算机视觉人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg3NDU4NDAyMg==&mid=2247486879&idx=1&sn=901e1ce9e03d71a2b0b18182a9867a05&scene=19#wechat_redirect

版权

3D视觉专栏收录该内容

144 篇文章 68 订阅

订阅专栏

作者：lrwin_bian

编辑：3D视觉开发者社区

前言

近些年，人脸识别技术已经成为普遍的生物认证方法，但在安全场景中使用时，被“欺骗攻击”已成为一个重要议题。为了解决这一问题，研究者们提出了多通道方法。在本文中，作者在本文章提出了一个新的PAD框架，该框架使用RGB和深度通道和一个新的损失函数进行结合。新的架构使用了两种模式的互补信息，同时减少了过度拟合的影响。并提出一个跨模态的焦点损失函数，该函数作为通道置信度函数用来调节不同通道的损失贡献。在两个公开的数据集中进行了广泛的实验评估，也证明了该方法的有效性。

开源代码：https://github.com/anjith2006/bob.paper.cross_modal_focal_loss_cvpr2021

论文地址：https://arxiv.org/abs/2103.00948
在这里插入图片描述

一、介绍

近些年，人脸识别技术已经成为普遍的生物认证方法，但在安全场景中使用时，呈现攻击（也称为“欺骗攻击”）的脆弱性是一个主要问题。这些攻击可以是模拟攻击也可以是混淆攻击。模拟攻击试图通过伪装他人获得访问权限，混淆攻击试图逃避人脸识别系统。虽然许多解决方法被提出，但大多数方法对于未见过的攻击测试都以失败告终。实际场景中，在训练PAD模型时，不可能对所有类型的攻击都进行预测，另外，PAD系统希望能检测到新的高水平的类型攻击，所以，在PAD模型中具有对抗不可见类型的攻击鲁棒性就显得十分重要了。

近年来，大部分的文献都是基于RGB相机来检测攻击，许多基于特征的方法已经被提出，如使用颜色、纹理、运动、生动性线索、直方图特征、局部二值模式和运动模式等。一些研究表明，使用二进制或深度监督形式的辅助信息可以提高性能。然而，这些方法中的大多数都是专门为2D攻击设计的，对具有挑战性的3D和部分攻击的性能效果不理想，而且对不可见攻击的鲁棒性较差。

单RGB模型的性能随着攻击复杂性的提高（如3D掩码和部分攻击）而下降。由于可见光光谱的局限性，一些多通道人脸检测方法也被提出，从本质上说，当多通道PAD系统从不同的通道捕获互补信息时，它变得更难欺骗。多通道方法已经被证明是有效的，但是它带来了昂贵的硬件成本问题。PAD有多种通道可供选择，例如RGB、深度、热、近红外光谱、SWIR光谱、紫外线、光场成像等。在这些不同的模式中，RGB-D设备价格相当低廉，在市场上容易买到，并且不需要任何额外的工作就可以获得多通道图像。由于这些通道被集成在一个包中，而且广泛可用性，因此我们选择RGB和Depth作为这项工作中使用的两个主要通道，不过，所提出的框架也可以简单地扩展到任何信道组合。

不过即使在使用多个通道时，模型也倾向于过度适应训练集中的攻击。虽然模型对于训练集中看到的攻击中可以执行的很完美，但在现实场景中遇到未见过的攻击时，性能通常会下降。

本文通过两个不同的方向来解决这个问题。首先，使用一个多头部架构，它遵循一个后期融合策略来组合不同的通道信息。我们没有将表示连接到一个联合的最终节点，而是为各个分支和联合分支分别保留三个不同的头，这可以看作是一种架构规则化的形式。所提出的架构如图1所示。这样就能够同时监督单个通道和联合表示，确保在单个分支和联合分支中学习鲁棒性表示。其次，我们提出了一个跨模态的焦点损失函数来监督各个通道，该损失函数能够调节不同通道的置信度。
在这里插入图片描述
图1：PAD系统框架。采用了两路流多头结构和后期融合策略。各个通道对应的头部由所提出的跨模态损失（CMFL）进行监督，而联合模型则由二进制交叉熵（BCE）进行监督。

二、提出的方案

2.1预处理

PAD框架路线中数据采用的是裁剪过的面部图像。对于RGB图像，预处理阶段包括使用MTCNN框架进行人脸检测和关键点定位，然后进行对齐。检测到的人脸是通过使眼睛中心水平对齐，然后将其调整到224×224的分辨率。对于深度图像，使用使用中值绝对偏差（MAD）的归一化方法来归一化面部图像到8位范围。RGB和深度原始图像已经在空间上注册，以便可以使用相同的变换来对齐深度图像中的脸部。

2.2网络架构和损失函数

2.2.1 网络结构

根据现有文献，多通道的方法对多种范围的攻击都具有鲁棒性。概括地说，基本有四种不同的策略来融合来自多个通道的信息，它们是：

早期融合，这意味着通道是在输入层进行堆叠
后期融合，这意味着来自不同网络的表示在后期进行组合，类似于特征融合（例如MCCNN）
得分融合，针对不同的通道信息分别训练各个网络，并且对每个通道的得分执行分数级融合。
是一种混合方法，即来自多个级别的信息被组合在一起。

尽管多通道信息可以很好地对抗各种各样的攻击，但当所有通道一起使用并作为二进制分类器训练时，它们往往会过拟合那些训练数据中已知的攻击。为了避免这种情况，我们提出了一种遵循后期融合策略的多头体系结构。所提出的网络的、架构如图1所示。基本上，该体系结构由一个双流网络组成，该网络具有用于分通道（RGB和Depth）的独立分支。来自两个通道词向量组合形成第三个分支。全连接层被添加到这些分支中来形成最终的分类器头。这三个头被一个损失函数共同监督，从而使网络从单个通道和及联表示中学习区分信息，来减少过拟合。多头部结构还能使得即使在测试阶段缺少通道信息也可以通过得分机制执行，这意味着即使网络在RGB-D数据上训练，我们也可以单独使用RGB分支（单独使用来自RGB头部的得分）进行评分。

2.2.2跨模型聚焦损失

有了单独的头后，就有可能训练出一个多通道模型，该模型能够在测试时处理丢失的通道情况。现在，监督这个网络的一个简单方法就是用二进制交叉熵损失（BCE）。

但是，在单通道中使用BCE可能并不理想。问题在于：可以将不同的通道视为同一样本的不同视图，但对于某些攻击，仅从一个视图可能无法区分。当仅在一个通道中查看时，某些攻击的图像可能看起来非常像真实的样本。这种情况下，用BCE监督深度通道分支的简单方法可能会导致过拟合。所以为了解决该类问题我们提出了一个跨模型的焦点损失函数来监督各个通道，它根据当前通道和备用通道的置信度来调节损失。

这样每个分支样本可以在得分空间被很好分类。同时，鼓励各个分支在没有足够区分信息时产生不确定分数，而不是过度拟合训练数据中的某些统计偏差。但是考虑一个二值分类问题中样本是多模型的，即每个样本是一对图像或特征集，这些图像或特征集捕获了具有互补信息的不同视图。现在假设将两个通道的特征结合起来，并使用联合特征的学习策略可以提供一个解决方案。但是，这可能会导致过拟合，并且无法在测试阶段处理丢失的通道的情况。

如果在单独的分支上使用BCE，损失将严重影响那些无法用特定渠道的可用信息进行分类的样本。在这种情况下，模型可能开始过度拟合数据集中的偏差以最小化损失函数，从而导致模型过拟合。

为了避免这种情况，我们提出了跨模型焦点损失（CMFL）来监督各个通道。其核心思想是，当其中一个通道能够以高置信度正确地对样本进行分类时，则可以减少样本在另一个分支中的损失贡献。如果一个通道能够完全正确分类一个样本，那么我们就不希望另一个分支对模型进行更多的惩罚。CMFL迫使每个分支学习单个信道的鲁棒表示，然后可以与联合分支一起使用，有效地充当辅助损失函数。

松散化正确分类样本的损失贡献与目标检测问题中使用的焦点损失类似。在焦点损失中，使用调制因子来减少由具有高置信度的正确分类的样本所造成的损失贡献。我们通过调整当前和备用支路中样本置信度的损失因子来实现相似的思想。
考虑二元分类问题中的交叉熵（CE）表达式：
$\begin{cases} -log(p)\qquad ify=1 \\ -log(1-p) \qquad ify=0 \\ \end{cases}$

其中 $\in\left\{ 0,1 \right\}$ 表示类标签（ $y$ :0攻击， $y$ :1真实）, $p\in\left[ 0,1 \right]$ 表示类的概率。我们遵循与焦点损失类似的符号pt，即目标类的概率：
$\begin{cases} p\qquad ify=1 \\ 1-p\qquad otherwise\\ \end{cases}$

这里 $CE\left( p,y \right)=CE\left( p_{t}\right)=log\left( p_{t} \right)$ 。在 $\alpha-$ 平衡形式中, $CE$ 损失可以写为：
$CE\left( pt \right)=\alpha_{t}log\left( p_{t} \right)$

标准的 $\alpha-$ 平衡焦点损失（FL）,通过添加一个调制因子（1- $p_{t}$ ） $\gamma$ 到交叉熵损失中，其中 $\gamma\geq0$ ,其损失函数为：
在这里插入图片描述
考虑如图3中的双流多分支多头模型。 $X_{p}$ 和 $X_{q}$ 表示来自不同模型的图像输入， $E_{p}$ 、 $E_{q}$ 和 $E_{r}$ 表示单通道和联合表示的相应嵌入。在每个分支中，嵌入层后面跟一个全连层+sigmod层来生成分类概率。变量， $p, q$ 和 $r$ 表示对应的概率。
在这里插入图片描述
图3：双流多头模型图，展示了单分支和联合分支的嵌入、概率。同时该方法也可以扩展到更多的head头。
所提出的跨模型焦点损失函数(CMFL)如下所示：

函数 $\omega\left(p_{t},q_{t} \right)$ 的大小取决于来自两个单分支通道的概率。这个调节因子会随着其他分支概率的增加而增加，同时能够防止完全确定概率的错误。因此，在本研究中，我们使用两个分支的调和平均数，并与另一个分支的概率加权。当另一个分支给出confident的预测时，就减少损失贡献。这个函数的表达式如下：
在这里插入图片描述
这意味着权重函数取决于另一个分支的概率。现在我们使用提出的损失函数作为辅助监督，要最小化的总体损失函数如下所示：
在本研究中，我们将值设为0.5。交叉熵的损失曲线和提出的损失函数曲线如图2所示。当其他分支的概率为零时，整个损失等价于标准交叉熵。当另一个分支能够正确分类样本时，整个损失贡献就减少了。即，当网络 $CNN_{P}$ 对攻击样本进行错误分类时，除非 $CNN_{P}$ 型能够对攻击样本进行高置信度分类，否则网络 $CNN_{P}$ 将受到惩罚。当 $\omega\left( p,q\right)\rightarrow-1$ 时，调制因子变为零，这意味着如果一个通道能够完美地对其进行分类，则另一个分支的惩罚较小。此外，参数 $\gamma$ 可以用来改变损耗曲线的特性。在我们的所有实验中 $\gamma=3$ 。
在这里插入图片描述
对于所提出的损失函数（ $\gamma=3$ ）曲线，变量q， qq表示双流网络中另一分支正确分类的概率。可以看出，当q=0时，损失曲线收敛于交叉熵损失。当q→1时，整个损失的贡献减小。
在损失函数适用的前提下，该框架还可以推广到其它多通道分类问题。

2.2.3 配置细节

在训练阶段，我们进行了数据增强，图片随机水平翻转的概率设为0.5。用Adam优化器将组合损失函数最小化。学习率为 mini batch 设为64，GPU上网络迭代25个epochs。在模型的评价中，使用RGB-D头的分数计算最终PAD得分。框架结构约有6.39M参数和9.16 GFLOPS。该框架基于PyTorch库实现。

三、实验及结果

3.1 数据

在实验中我们使用了两个公开可用的数据集，即WMCA和HQ-WMCA，其中包含多种2D、3D和部分攻击。

3.1.1 WMCA数据

（WMCA）数据库包含各种各样的2D和3D呈现攻击，总共有来自72名受试者的1679个视频样本。使用两个消费级设备“英特尔®RealSense”SR300（用于颜色、深度和红外）和Seek Thermal CompactPRO（用于热通道）同步采集的多个通道，即颜色、深度、红外和热通道™。尽管此数据库中有四个不同的通道，但在本工作中，我们将重点关注从Intel®RealSenseSR300获取的RGB和深度数据。

3.1.2 HQ-WMCA数据

高质量广域多通道攻击（HQ-WMCA）数据集由2904个真实攻击和表示攻击的短多模式视频记录组成。这个数据库同样包含各种各样的攻击，包括混淆和模拟攻击。具体来说，考虑的攻击包括打印、回放、硬面具、纸面具、软面具、人体模型、眼镜、化妆品、纹身和假发（图4）。该数据库由51个不同主题的记录组成，包括颜色、深度、热、红外（光谱）和短波红外（光谱）等多个通道。在这项工作中，我们考虑了用Basler acA1921-150uc相机捕获的RGB通道和用Intel RealSense D415捕获的深度图像。
在这里插入图片描述

3.2 协议

由于这两个数据集都包含各种各样的攻击，因此我们分别为这两个数据集创建了leave one out（LOO）攻击协议。具体地说，在训练集和开发集中遗漏了一个攻击，而评估集由真实攻击和在训练集和开发集中遗漏的攻击组成。这就构成了隐形攻击协议或零射击攻击协议。在这些协议中，PAD方法的性能给出了一个更真实的估计，即它们对不可见数据的鲁棒性真实场景中的攻击。此外，对于跨数据集的实验，我们在两个数据集中都创建了grandtest协议，这些协议由分布在train、development和test集中的攻击组成（具有跨折叠的不相交身份）。

3.3 度量标注

为了评估算法，我们使用了ISO/IEC 30107-3度量[20]、攻击表示分类错误率（APCER）和真实表示分类错误率（BPCER）以及评估集中的平均分类错误率（ACER）。我们在dev集合中计算BPCER值为1%的阈值。
在这里插入图片描述
对于跨数据库测试，根据中的约定，采用半总错误率（HTER），该约定计算错误拒绝率（FRR）和错误接受率（FAR）的平均值。HTER在eval集合中使用在dev集合中使用相等错误率准则（EER）计算的阈值来计算。

3.4 基准方法

为了与现有技术进行公平的比较，我们从文献中为RGB-D通道实现了3种不同的多通道PAD方法。此外，我们还介绍了所提出的单用BCE监督的多头部结构，作为比较的另一个基准。实施的基线如下所示。
MC-PixBiS:这是一个基于CNN的系统[14]，扩展到多通道场景，如[18]所述，使用二进制和像素级二进制损失函数进行训练。此模型使用RGB和深度通道叠加在输入。
MCCNN-OCCL-GMM:该模型是利用一类对比损失（OCCL）和高斯混合学习一类模型的多通道CNN系统。该模型采用RGB-D通道作为输入。
MC-ResNetDLAS：该架构在“CASIA-SURF”挑战赛中获得一等奖，基于开源实现将其扩展到RGB-D通道*。我们使用该架构建议的最佳预训练模型的初始化，然后使用RGB-D通道在当前原型中进行再训练。
RGBD-MH-BCE：这使用了图1所示的新提出的多头架构，其中所有分支都由二进制交叉熵（BCE）监督。本质上，这相当于在交叉模态损失函数的表达式中设置的值。这显示为一个基线，以展示新的多头架构单独的改进，并与新的损失功能的性能变化进行对比。
提出的结构：这是我们提出的框架，它使用了我们提出的多头架构，如图1所示，以获得新提出的损失函数。更具体地说，单个通道分支由新提出的跨模型焦点损失函数（CMFL）进行监督，基线方法的参数细节可以在我们的开源实现中找到。

3.5 实验结果

我们在WMCA和HQWMCA数据集中进行了实验，特别是在leave-one-out协议中评估了对未知攻击的鲁棒性。
通过实验结果，发现新提出的多头体系结构与其他基线相比性能有所提升。结合添加的CMFL损失进一步提高了WMCA和HQ-WMCA数据集的性能。
在这里插入图片描述

3.7讨论

在WMCA和HQ-WMCA上的实验表明，该方法的性能优于现有的方法。我们还表明，所提出的方法在训练时有多个通道，部署时单个通道的情况下是有用的。尽管所提出的方法在数据集内的情况下工作得很好，但跨数据库的性能还需要进一步提高。在未来的工作中，可以开发更多的预处理和数据扩充策略来缓解数据集之间的差异，提高跨数据库的性能。虽然我们在本研究中选择了RGB和depth通道，主要是由于由这些通道组成的现成设备的可用性，但将本研究扩展到其他通道组合（例如RGB红外和RGB热通道）也很简单。

四. 结论

在这项工作中，我们提出了一种新的RGBD表示攻击检测体系结构，也适用于其他多通道的分类问题。此外，我们还提出了一种新的适用于双流网络的跨模型焦点损失函数。所提出的函数基于单个通道的置信度来调节样本的损耗贡献。该框架可以简单地扩展到多个通道和其中仅一个通道的信息不足以进行分类的问题。这种损失迫使网络学习互补的，有区别的，和稳健的代表性组成的渠道。该框架的结构使得使用所有可用通道来训练模型和使用通道子集来部署模型成为可能。在两个公开的数据集中进行了广泛的评估，证明了该方法的有效性。

版权声明：本文为作者授权，由3D视觉开发者社区编辑整理发布，公众号转载请注明，本文仅做学术分享，内容版权归原作者所有，若内容涉及侵权内容请联系删文。

3D视觉开发者社区是由奥比中光给所有开发者打造的分享与交流平台，旨在将3D视觉技术开放给开发者。平台为开发者提供3D视觉领域免费课程、奥比中光独家资源与专业技术支持。点击加入3D视觉开发者社区，和开发者们一起讨论分享吧~

或可微信关注官方公众号 3D视觉开发者社区，获取更多干货知识哦。

奥比中光3D视觉开发者社区

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【CVPR2021综述】基于跨模型聚焦损失的RGBD人脸反欺诈

PAD框架，该框架使用RGB和深度通道和一个新的损失函数进行结合。新的架构使用了两种模式的互补信息，同时减少了过度拟合的影响。并提出一个跨模态的焦点损失函数，该函数作为通道置信度函数用来调节不同通道的损失贡献。在两个公开的数据集中进行了广泛的实验评估，也证明了该方法的有效性。
复制链接

扫一扫