这篇论文中设计的网络结构用于seetaface人脸识别引擎中。
作者提出了一个粗到精的自动编码网络(CFAN),级联了一些堆叠自动编码网络(SANs)。
1、初步是将检测到的整体的人脸的低分辨率版本作为输入,这样第一个SAN就能快速并足够准确的预测标志点。---全局SAN
2、余下的SAN随后通过以越来越高分辨率的方式将当前标志(先前SAN的输出)提取的局部特征作为输入进行逐步细化。--局部SAN
在局部SAN中,在每个标志周围提取SIFT特征。
每个SAN都会根据前一个SAN预测的形状,尝试从不同尺度的面部图像到脸部形状的非线性映射。
采用全局特征作为首个SAN的输入可以避免平均形状带来的误差。
在从第一SAN获得面部形状的估计S0之后,连续的SAN(称为本地SAN)通过逐步回归当前位置和地面真值位置之间的偏差ΔS来努力改善形状。
为了表征精细变化,利用以较高分辨率从当前形状提取的形状索引特征来执行较小的搜索步长和较小的搜索区域。
所有面部特征点的形状索引特征被级联在一起,以便同时更新所有面部特征点。这样即使是在部分阻塞的情况下也能保证得到一个合理有效的结果。
一般来说,已有的对齐方式可被分为基于方法[7,21,14,34,19,6] 的整体特征和基于方法[8,10,15,23,9,25,35,32,31,2,28,11] 的局部特征。
假设有一副d个像素的人脸图像x ∈ Rd (d上标),Sg(x) ∈ Rp (g下标,p上标)表示p个标志的真实位置。面部标志检测是学习一个从图像到面部形状的映射函数F:
F : S ← x.</