基于注意力的人脸抗欺骗RGB图像,使用最小的2端神经网络

Attention-Based Face AntiSpoofing of RGB Images, using a Minimal End-2-End Neural Network

摘要

人脸抗欺骗攻击的目标是识别真假人脸,在安全敏感应用、活性检测、指纹识别等方面得到了高度重视。在本文中,我们提出了两个端到端的卷积神经网络来解决反欺骗干扰问题。在此基础上建立了一种模型,并对该模型进行了最后的修正。第二个,是一个非常轻的模型的MobileNet V2,它已被压缩,修改和再培训有效的数据正在创建的基础上,玫瑰- youtu数据集,为此目的。实验结果表明,这两种算法对人脸输入数据的真伪图像检测效果显著。实验清楚地表明,重型模型可以有效地应用于服务器端实现,而轻型模型可以很容易地在手持设备上实现,并且仅使用RGB输入图像就可以很好地执行。

索引词:面对反欺骗干扰,活性检测,生物识别,CNN可视化,深度学习。

1. 简介

人脸反欺骗一直是人脸验证与识别系统中一个具有挑战性的关键任务。传统的人脸反欺骗系统使用特征人脸[1]、梯度直方图(Histogram of Gradient)[2]或LBP (Local Binary Pattern)特征来执行任务[3],而最近的系统大多涉及深度神经特征,如deep face[4]、FaceNet[5]、OpenFace[6]。

新兴和普遍使用的红外和深度传感器,已高度简化真实和假的检测图像最近通过一些图像处理技术,然而使用所有这些传感器并不总是可行的,而且以前的产品发布的大多数公司不包括与这些技术。

在本文中,我们解决了仅使用传统相机的RGB帧而不使用辅助数据的人脸抗欺骗问题,这是该领域中最具挑战性的任务。

为了应对面部活性检测的挑战,目前已经发布了一些具有特定属性的数据集。NUAA imposter[7]是一个公开的[7],包含7509张假图和5105张真图,但是考虑到深度学习所需数据的一般规模,其数据量是有限的。Casia-Surf是最近在CVPR 2019[8]上发布的另一个数据集,它包含所有三种类型的数据,包括RGB、IR和深度数据样本,对多模式系统非常有用。该数据集包含9608训练和验证数据样本。

在反欺骗领域具有历史影响的工作,包含四个主要的方法。一是基于纹理的方法,结合了HoG、LBP等手工特征和SVM等传统分类器来执行任务[9]、[10]。temporal-based方法,另一方面,要么使用面部运动模式(例如,眼睛闪烁)或涉及的脸和背景之间的运动和利用方法,如光流跟踪的运动面临为了区分真正的面孔从假的[11]。一些基于三维结构的方法也被开发出来,这些方法或从二维图像中提取深度信息,或分析用三维传感器记录的三维形状信息,然后将输入样本的三维模型与真实人脸[12]的三维模型进行比较。然而,这种方法需要特定的3D设备,这是不容易获得的,应该是昂贵的。最后,rPPG (Remote Photoplethysmography)方法在不接触任何皮肤[13]、[14]的情况下从面部视频中提取脉冲信号。然而,所有这些系统都非常容易受到假脸攻击和面具的攻击,如果没有深度信息、IR[15]等辅助数据帮助,可能无法应对这些攻击。近年来,基于深度学习的方法已经广泛应用于许多检测和识别任务,以及反欺骗、[16]、[17]。

在本文中,我们解决了反欺骗干扰问题和活性检测使用端到端系统。这项工作的新颖性是多方面的:1)没有任何手工的特性(如猪,和LBP)被利用,2)拟议的系统不需要辅助数据(如深度、IR)和比如仅依据输入RGB图像,3)尽管深层神经网络结构,整个系统很轻,便携,可以部署在手持设备和移动电话与正常商业处理器、4)拟议的系统可以处理所有类型的假图片,5)由于上述每一项成果都提出了一些具有挑战性的问题,所提出的系统能够有效地处理这些问题。

图1 数据准备流程图,以便从数据集中收集真实和虚假的图像。 

图2所示。(上)真实图像样本,(下)与顶部图像对应的假图像样本(从左至右):裁剪掉嘴巴和眼睛的口罩,不裁剪的纸口罩,中间剪去上部的纸口罩,纸打印口罩,视频回放。 

本文的提纲如下。下一节解释提出的系统的背景理论。并对实验结果进行了分析。结论部分是论文的结尾,后面是本文引用的参考文献。

2. 相关工作

面向对象的反欺骗干扰问题已经基本解决。例如,iPhone X上的面部识别服务,已经能够创建面部的3D网格图,使用点投影仪、泛光照明、红外传感器以及专用的神经网络硬件(神经引擎)。其他品牌,也使用几乎类似的机制来应对反欺骗干扰问题。

另一方面,也有一些中档手机和之前已经售罄的设备缺乏这些传感器和处理单元。此外,还有许多验证任务是使用笔记本电脑的网络摄像头执行的,而这些机制是完全没有的。这些问题激发了一个模型的工作,这个模型只能使用RGB图像来解决这个问题。

3. 提出的框架

人脸抗欺骗问题可以转化为二分类问题,即尝试区分真假图像。然而,由于各种类型的攻击和可以提供给系统的各种类型的假图像的变化,假样本的数量通常是占主导地位的。因此,系统很可能暴露在不平衡的训练数据中。

A. 数据集准备任务

为了收集反欺骗所需的数据,存在一些问题阻碍了干净数据的准备。例如,如果不进行预处理,经过的背景人或背景中的人像很容易泄露数据。相应地,这些异常值必须被丢弃。图1描述了用于适当和可靠数据准备的拟议系统的功能流程图。

生成各种数据集来处理活性检测问题。NUAA冒名顶替者[7]已经公开,只包含7509张假图片和5105张真图片,对于基于深度网络的应用程序来说,这样的数据量是远远不够的。Casia-Surf[18]是最近发布的数据集,它包含RGB、IR和深度数据样本,适用于多模式系统。它包含9608训练,以及验证数据样本。如此多的数据也不能满足深度结构化训练模型。本文使用的数据集为ROSE-Youtu[10],其中包含了真实的视频和相应的假视频。因此,数据样本不是作为图像提取的。从这个数据集中获取的一些图像示例如图2所示。

为了从ROSE-Youtu数据集中提取图像,我们使用MTCNN网络[19]进行人脸检测。为此,我们加载了数据集中的3350个视频中的每个视频,并将其分散到帧中。在每个帧中使用MTCNN进行人脸检测。然后,将face区域裁剪出来,并放入其关联的数据[20]类。因此,我们准备了一组817519个数据样本,没有进行扩增。在这个准备过程中,我们注意到一些真实的图像中有背景的人经过,这使得真实的视频被归类为假视频。此外,还有一些视频,其中包括了场景背后的肖像,这也导致了真实的视频被归类为虚假的。这些案例的示例如图3所示。

图3 不合适的样本(从左至右):第1和第2张图像:移动真实背景图像的假样本;第三到第五张图片:背景中有图片的假样本。 

为了保证模型对人的变化具有鲁棒性,从数据(包含20人的样本)中提取出与特定人相关的一组图像,作为测试数据对于真实和虚假的图像。数据集的其余部分分别被划分为80%和20%,用于培训和验证。

B. 本文提出的结构

收集和整理数据后,进行二分类(即使用了最先进的高效网络架构[21],如图4所示。这个网络使用EfficientNet B0模型,它已经在imagenet数据集上预先训练过,只是作为初始化。整个层都是可训练的,在前两层FC层(每层1024、256、32、2个神经元)中使用swish[22]激活函数进行全连接(FC层),最后一层使用softmax和tanh激活函数。并且在每两层之间都进行了dropconnect[23]和batch归一化[24],以避免过拟合。该模型的参数总数为5,592,606,所采用的优化方法为修正adam[25]最小化算法。

图4 基于EfficientNet B0的抗欺骗体系结构。转移学习已经涉及到网络的权重。 

如前所述,由于目前进行的二分类是针对不平衡数据进行的,因此对网络的准确性进行监控是不合理的,因此我们采用了精确度与召回度相结合的F1-score来进行评价,如下

此外,由于问题的分类性质,选择了二元交叉熵作为损失函数。

在训练期间,取得了如表一所示的结果:

使用dropconnect会导致培训损失小于验证损失,如图5所示。 

经过97个epoch,得到了最优参数,模型需要节省68.21兆字节。另外,对于不可见的测试数据,混淆矩阵如图6所示。

 如图6所示,所提议的模型执行得很好,但是由于参数数量太多,并且使用了swish函数,所以它不太适合客户端实现。这种体系结构非常适合服务器端实现。

C. 低重量模型-客户端

另一个可以被合并来执行任务的流行架构是MobileNet V2[26],它使用可分离的CNN逻辑,具有深度和点方向(i..e Xception [27])。在这项工作中,我们使用了这样一个模型的最小结构,它使用了参数较少的可分离CNN逻辑。在imageNet数据集上训练的MobileNet V2的最后一层的视觉感知如图7所示。为了可视化该层,softmax被省略,输出被激活使用线性激活。

图7 可视化的最后一层的MobileNet。(从上到右):金鱼,白鲨,黄貂鱼,(从下到左到右 

图8 用于MobileNet V2的初级内核,在imageNet上预先训练。

图9 (从上到下的行):用于MobileNet V2的低层内核、用于MobileNet V2的中层内核、用于MobileNet V2的高层内核,所有这些都是在imageNet数据集上预先训练的。 

除了前面显示的全连接层的输出之外,我们还将了解基本的卷积层和一些中间层。这些图如图10所示。

 图10 基于MobileNet V2的低重量反欺骗体系结构。对原始网络进行了压缩,并使用剩余权值作为初始化器。

从这些图中可以看出,对于imageNet数据集来说,网络已经达到了一个较高的感知水平,而且类很多。然而,在我们的工作中,我们只对两个类感兴趣,即真实的和虚假的面部图像。因此,相对于卷积层中使用的滤波器,基本网络可以很容易地简化,参数可以大大降低。在我们提出的架构中,每一层的滤波器数量是原来的1/3,并且将输入的大小减少到最小,即96 96 3。通过应用这些变化,模型体积和参数数量分别从16m字节(347万个参数)更改为370 m字节(266801个参数)。使用Tensorflow提出的部署模型转换技术(例如TF-lite转换和量化),即使使用100 KBytes也可以实现更紧凑的模型体积。

在我们的实现中,我们使用了这些技术,并使用了带有32 gb RAM的GTX 1080图形卡,我们可以将批处理大小增加到718个样本,并且为了调整大批处理,使用了组规范化器[28]。所提出的光模型的训练和测试的评估结果如图11所示。

图11 图10中提出的用于训练和验证数据的低权重体系结构的结果。 

所获得的结果是针对每个度量的100个epoch。

通过观察网络的可视化层,已经训练了imageNet数据集包含1000类,并通过归纳逻辑上我们可以奉献,为我们的二元分类问题的低级内核初始层不应该让一个巨大的区别的特性,而不是更高的水平层,因此他们可能会减少。因此,我们取消了一半的过滤器从最初的卷积层,和一个百分比的休息。图8描述了MobileNet V2网络的第一层内核。显然,对于二进制分类来说,这些内核的数量并不能提供足够的信息。因此,在我们的实验中,我们使用网络宽度控制器系数0.35来实现MobileNet V2网络中的最佳滤波器宽度。因此,迁移学习并不完全是我们在工作中所进行的。我们已经收缩了预先训练好的MobileNet V2,然后我们使用了收缩网络的初始权值,如图9所示,接下来是我们定制的MLP堆栈(336 112 1密集层),由于批量巨大,我们进行了组规范化,如图10所示。

4. 实验与分析

在ROSE-Youtu数据集上的低权反欺骗网络的混淆矩阵如图12所示。与之前介绍的EfficientNet B0模型相比,数据的不平衡性影响了真实图像的检测结果。

图12 提出的测试数据低权数结构的混淆矩阵。

如图11所示,训练过程比原来的MobileNet模型执行得更快,因为参数的数量大大减少了。然而,与训练曲线相比,验证曲线明显存在偏差。其原因是追求网络不完全拟合的参数数目大大减少。与图7相同,在图13中,我们所提议的网络的最后一层已经被可视化了,在训练阶段完成后,它将用于二进制分类任务。

图13 (左)提出的低权重模型的可视化致密层,(2×5个图像矩阵)图10所示架构的顶层内核 

如图11和表II所示,所提议的低重量体系结构的结果显然验证了其在客户端使用的资格。

如图14所示,上面罩图像的gradCAM注意力可视化主要集中在眼睛上,其深度不同寻常,为[29]。 对于全遮罩图像,眼睛和嘴巴都吸引了注意力,而对于重放图像和照片图像,注意力在面部的分布几乎是随机的。然而,对于真实的脸来说,注意力主要集中在下巴上,并有规律地分布。

图14 (Top-2-down行):测试数据(从左至右:上蒙版、全蒙版、回放、照片、实景);试验数据[30]的显著性特征;gradCAM关注测试数据样本的可视化图形。 

5. 结论

本文提出了两种基于end-2-end attention的face anti-spoofing模型,一种用于服务器端,另一种用于客户端实现,该模型仅包含摄像机的RGB图像。这些模型不需要辅助数据(如深度、红外等),在真假识别任务中表现出色。提出的基于EfficientNet B0的模型在数据集上运行良好,这使得它可以用于包含NPUs(专用的神经处理单元)的旗舰移动设备,或者在服务器端。提出的低重量结构要求在低体积的参数非常少,这使它能够有效地用于移动电话。各种攻击已经被实验过,并且重的和低重量的架构在假数据输入上都表现得很好,这验证了所提模型的鲁棒性。

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值