Contributions
1.在训练阶段,利用辅助网络估计人脸的几何信息,不涉及测试阶段。
2.该方法在考虑几何正则化的基础上,通过调整训练集中不同状态的样本权值,如大姿态、极端光照、遮挡等,来解决数据不平衡的问题。
3.使用mult-scale fc层用于扩大感受野精确定位人脸的特征点。
4.使用Mobilenet block构建网络的backbone提升模型的处理速度减少模型计算量
Difficulties of face alignment
困难一:局部变形
面部表情、局部极端光照(如高光和阴影)和遮挡会对面部图像造成部分变化/干扰。一些区域的地标可能会偏离正常位置甚至消失。
困难二:全局变化
位姿和成像质量是影响人脸在图像中表现的两个主要因素,当人脸全局结构被错误估计时,这两个因素会导致大部分关键点的定位较差。
困难三:数据不平衡
在浅层学习和深层学习中,一个可用的数据集在它的类/属性之间表现出不平等的分布,这是很常见的。这种不平衡很可能使算法/模型不能正确地表示数据的特征,从而在不同属性之间提供不令人满意的准确性。
困难四:模型效率
模型尺度计算量与准确率是需要同时考虑的
PFLD在复杂情况下包括无限制姿态,表情,光照以及遮挡都具有很高的精度。为了提高鲁棒性,使用网络的一个分支来估计每个人脸样本的几何信息,并在此基础上对关键点定位进行了规范。此外,在深度学习中,数据的不平衡问题往往限制了准确检测的性能。为了解决这个问题,作者提议相对于丰富样本,针对罕见样本应该在误差上惩罚更多。考虑到这两个问题,即几何约束和数据不平衡,设计了一种新的loss。为了扩大接受域,更好地捕捉人脸的全局结构,增加了多尺度全连通(MS-FC)层来精确定位图像中的特征点。
Loss Function
对于惩罚ground-truth landmarks
X
:
=
[
x
1
,
.
.
.
,
x
N
]
X:=[x_1,...,x_N]
X:=[x1,...,xN]与predicted ones
Y
:
=
[
y
1
,
.
.
.
,
y
N
]
Y:=[y_1,...,y_N]
Y:=[y1,...,yN],最简单的loss是
l
2
l_2
l2。然而,在不考虑几何/结构信息的情况下,平均衡量特征点对的差异是不明智的。考虑几何约束和数据不平衡,论文提出loss:
-
M为样本个数,N为特征点个数
-
|| * ||为特征点的距离度量(L1或L2距离)
-
其中 θ k \theta_k θk(K=3)分别代表gt和prediction在yaw、pitch、roll三种角度之间的偏差(理解一下人脸姿态估计的三种角度: pitch代表上下翻转,yaw代表水平翻转,roll代表平面内旋转),角度越大cos值越小,权重越大
-
C为不同的人脸类别数,作者将人脸分成多个类别,比如侧脸、正脸、抬头、低头、表情、遮挡等,w为与类别对应的给定权重,如果某类别样本少则给定权重大。
Auxiliary Network
论文提出辅助网络来估计3D旋转信息包括偏航,俯仰和滚转角,有了这些角度就能判断头的姿态。辅助网络的提出是为了提供loss几何信息可以更好的回归特征点,在inference时,该网络被舍弃。
Result
从表中可知,考虑几何信息与数据平衡可以有效提高网络性能。