学习笔记:Coarse-to-Fine Auto-Encoder Networks (CFAN) for Real-Time Face Alignment

这篇论文中设计的网络结构用于seetaface人脸识别引擎中。

作者提出了一个粗到精的自动编码网络(CFAN),级联了一些堆叠自动编码网络(SANs)。

1、初步是将检测到的整体的人脸的低分辨率版本作为输入,这样第一个SAN就能快速并足够准确的预测标志点。---全局SAN

2、余下的SAN随后通过以越来越高分辨率的方式将当前标志(先前SAN的输出)提取的局部特征作为输入进行逐步细化。--局部SAN

在局部SAN中,在每个标志周围提取SIFT特征。


每个SAN都会根据前一个SAN预测的形状,尝试从不同尺度的面部图像到脸部形状的非线性映射。

采用全局特征作为首个SAN的输入可以避免平均形状带来的误差。

在从第一SAN获得面部形状的估计S0之后,连续的SAN(称为本地SAN)通过逐步回归当前位置和地面真值位置之间的偏差ΔS来努力改善形状。

为了表征精细变化,利用以较高分辨率从当前形状提取的形状索引特征来执行较小的搜索步长和较小的搜索区域。

所有面部特征点的形状索引特征被级联在一起,以便同时更新所有面部特征点。这样即使是在部分阻塞的情况下也能保证得到一个合理有效的结果。


一般来说,已有的对齐方式可被分为基于方法[7,21,14,34,19,6] 的整体特征和基于方法[8,10,15,23,9,25,35,32,31,2,28,11] 的局部特征。




Fig. 1. Overview of our Coarse-to-Fine Auto-encoder Networks (CFAN) for real-time
face alignment. H 1 , H 2 are hidden layers. Through function F Φ , the joint local features
Φ ( S i ) are extracted around facial landmarks of current shape S i .

通过使用这种渐进式和分辨率可变的策略,每个SAN的搜索空间,或换句话说,每个SAN的任务难度得到很好的控制,因此更易于处理。

在使用Intel i7-3770(3.4 GHz CPU)的台式机上,作者的方法(在Matlab代码中)每个图像大约需要23毫秒,以预测68个脸部检测时间。

假设有一副d个像素的人脸图像x Rd (d上标),Sg(x) Rp (g下标,p上标)表示p个标志的真实位置。面部标志检测是学习一个从图像到面部形状的映射函数F:

   F : S x.</

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值