【论文】:https://arxiv.org/abs/1901.05602
【代码】:https://github.com/XgTu/GFA-CNN
创新点
- 提出了一个简单有效的Total Pairwise Confusion (TPC)损失函数,提高了抗PA方法的泛化能力;
- 在CNN模型中加入了一个Fast Domain Adaptation (FDA)组件,减轻域变化带来的负面影响;
- 得到模型GFA-CNN,活体检测和人脸识别同时进行,两任务的CNN层共享参数,模型效率较高;
多任务网络架构
- 两个分支,每个分支由5个CNN层块和3个全连通(FC)层组成,每个块包含3个CNN层;
- face anti-spoofing 分支用TPC损失函数和Anti-loss进行训练,输入为带背景的未处理的人脸图片,在输入人脸抗欺骗分支之前,训练图像通过给定的目标域图像传输到目标域,在测试阶段,将每个查询图像传输到目标域,然后转发到网络。
- face recognition分支用Recg-loss训练,输入为裁剪后的人脸图片;
- CNN模块与VGG16的卷积部分相同
- 人脸抗欺骗和人脸识别分支的FC层除了最后一层FC层的输出维数外,其余结构相同。人脸反欺骗分支的最后一层FC层为2维,人脸识别分支的最后一层FC层的维数取决于参与训练的目标数量。
- 总体目标函数为 ζ = ζ a n t i + λ 1 ∗ ζ i d + λ 2 ∗ ζ t p c \zeta =\zeta _{anti} + \lambda_1 * \zeta _{id} + \lambda_2 * \zeta _{tpc} ζ=ζanti+λ1∗ζid+λ2∗ζtpc
TPC 损失函数
ζ t p c ( x i , x j ) = ∑ i ≠ j M ∥ ψ ( x i ) − ψ ( x j ) ∥ 2 2 \zeta_{tpc}(x_i,x_j) = \sum^M_{i {\neq} j}\left \| \psi(x_i)-\psi(x_j) \right \|^2_2 ζtpc(xi,xj)=i̸=j∑M∥ψ(xi)−ψ(xj)∥22
- 其中, x i x_i xi和 x j x_j xj是两个随机选择的图片,M是样本对的总个数, ψ \psi ψ(x)表示人脸抗欺骗分支的第二全连通层
-
ζ
t
p
c
\zeta_{tpc}
ζtpc与PC损失函数的不同:
- TPC损失函数最小化随机样本对与训练集的分布距离,而不是两个不同类别的样本对,从而迫使CNN学习不那么具有区分性的特征。
- 我们将特征空间中的欧式距离最小化,而原始PC损失函数将概率空间中的距离最小化(softmax的输出),使同一对样本具有相似的条件概率分布。
FDA
- 使用FDA来减轻领域变化带来的负面影响
- 内容重建损失: ζ c o n t e n t = 1 C j H j W j ∥ ψ j ( y ) − ψ j ( x ) ∥ 2 2 \zeta_{content} = \frac{1}{C_jH_jW_j}\left \| \psi_j(y)-\psi_j(x) \right \|^2_2 ζcontent=CjHjWj1∥ψj(y)−ψj(x)∥22
- 域重建损失:
ζ
d
o
m
a
i
n
=
1
C
j
H
j
W
j
∥
G
j
(
y
)
−
G
j
(
y
d
)
∥
F
2
\zeta_{domain}=\frac{1}{C_jH_jW_j}\left \| G_j(y)-G_j(y_d) \right \|^2_F
ζdomain=CjHjWj1∥Gj(y)−Gj(yd)∥F2
G j = k k T C j H j W j G_j=\frac {kk_T}{C_jH_jW_j} Gj=CjHjWjkkT - y ^ = a r g m i n P ( λ c ζ c o n t e n t ( y , x ) + λ s ζ d o m a i n ( y , y d ) ) \hat y= arg min_{P}(\lambda_c\zeta_{content}(y,x)+\lambda_s\zeta_{domain}(y,y_d)) y^=argminP(λcζcontent(y,x)+λsζdomain(y,yd))
实验
- lr = 0.003,每2000步衰减一半
- batch size = 32
- λ 1 = 0.1 \lambda_1 = 0.1 λ1=0.1, λ 2 = 2.5 e − 5 \lambda_2 = 2.5e^{-5} λ2=2.5e−5
- CNN 层在VGG-face数据集上预训练
- 为了平衡数据,我们将CASIA-FASD、MSU-MFSD和Replay-Attack训练集中的live样本水平翻转和垂直翻转三倍,将SiW训练集中的live样本水平翻转两倍。