实现方法
-
局部特征+整体深度图
- 局部特征提取自人脸区域内的随机块
- 深度特征利用了整个人脸,并将人脸描述为三维图像
-
使用了两个CNN
- patch-based CNN:端到端训练的,并为每个从人脸图像中随机抽取的patch打一个分数,取平均分
- depth-based CNN:完全卷积网络(FCN),对人脸图像的深度图进行估计,并提供一个活度评分
架构图
无论是外观提示还是深度提示都可以独立检测人脸攻击,融合这两种线索可以得到更好的结果。
- 使用局部特征
- 可以增加训练样本数量,
- 不用对人脸大小进行调整,保持原始人脸图像的分辨率,从而保持识别能力
- 假设特定于欺骗的识别信息在整个人脸区域存在空间上,patch-level输入可以强制CNN发现这些信息,而不管patch的位置如何。与使用整个面部图像相比,这是一个更有约束或更具挑战性的学习任务
- CNN结构
- 输入图片 -> 检测人脸 -> 根据眼睛位置裁剪区域 -> 随机选取大小固定的patch -> patch-based CNN -> score
- 对于FCN,其参数是独立于输入人脸图像的大小的
- CNN输入: H S V + Y C b C r HSV + YC_bC_r HSV+YCbCr特征
- 下采样部分:6个卷积层和2个最大池化层
- 上采样部分:5个卷积层,其中包含4个转置卷积层
- 每层之后跟一个leaky-ReLU层
- 损失函数:
a r g m i n Θ J = ∣ ∣ f ( I , Θ ) − M ∣ ∣ F 2 argmin _{\Theta} J = ||f(I,\Theta)-M||^2_F argminΘJ=∣∣f(I,Θ)−M∣∣F2 - 用SVM分类器进行分类,RBF核
- 为了保证SVM的输入维数是相同的大小,深度t图像被一个N × \times ×N的网格单元覆盖,并生成一个 n 2 n^2 n2维的向量
- 采用高斯混合模型来拟合输入图像大小的分布,从而正确确定训练SVM的数量
实验
参数
patch-based CNN:
- learning rate = 0.001
- decay rate = 0.0001
- momentum = 0.99
- batch size = 100
- 视频集CASIA和Replay-Attack每帧提取两个随机的patch
- MSU-USSA:真样本64个patch,假样本8个patch
- CASIA & MSU-USSA patch size = 96
- Replay-Attack patch size = 24
- 为了适应patch大小的差异,删除了patch-based CNN的前两个池化层
depth-based CNN:
- learning rate = 0.01
- batch size = 32