[人脸对齐] Attention-Driven Cropping for Very High Resolution Facial Landmark Detection

最新推荐文章于 2022-07-27 01:03:23 发布

john_bh

最新推荐文章于 2022-07-27 01:03:23 发布

阅读量1.4k

点赞数 2

分类专栏：人脸对齐算法考试文章标签：人脸对齐人脸关键点检测 face align CVPR2020 人脸 Attention Crop

本文链接：https://blog.csdn.net/john_bh/article/details/106681955

版权

人脸对齐同时被 2 个专栏收录

16 篇文章 10 订阅

订阅专栏

算法考试

3 篇文章 0 订阅

订阅专栏

转载请注明作者和出处： http://blog.csdn.net/john_bh/

论文链接: Attention-Driven Cropping for Very High Resolution Facial Landmark Detection
作者及团队：苏黎世联邦理工学院
会议及时间：CVPR 2020

文章目录

1.主要贡献

作者分析现有的用于训练人脸关键点检测算法的数据集主要是由低分辨率图像组成的，目前的算法仅限于输入具有可比质量和分辨率的训练数据集。另一方面，随着消费型相机的质量逐年提高，高分辨率的图像也变得越来越普遍。因此，需要利用高分辨率图像中丰富的信息的算法。但是又因为GPU内存限制，不能够再现有算法上进行高分辨率人脸关键点检测，唯一的解决方案是降低图像样本，牺牲分辨率和质量。所以作者基于注意力机制提出完全卷积的区域架构，专门设计用于预测非常高分辨率的人脸图像上的landmark，而不需要向下采样。

个人认为作者说因为GPU内存限制不能处理高分辨率人脸关键点检测进而提出他的算法，这样一个理由有点牵强

Contributions：

结合了注意力驱动的裁剪人脸区域，引入可微的 soft-argmax 操作，搭建一个基于人脸区域的全卷积网络 landmark 检测器。

2. Network Architecture

整体框架如图1所示。

第一阶段，获取Global Latent Heatmap landmark。输入一张高分辨率的人脸图像，使用Average Pooling对图像进行downsample，生成 Low Resolution Proxy；接着经过Global Hourglass 生成 Global Latent Heatmap，然后经过softargmax 回归初步预测整个人脸的landmark;
第二阶段，从高分辨率图像中根据上一步的热图提取RoI。对于人脸的每个区域，使用softargmax的结果精确地计算出一个边界框（每个边界框由对应其左上角和右下角的4个坐标表示）；将正态分布的噪声单独添加到每个bounding-box的宽度和高度上（使区域模型对bounding-box内区域的位置具有足够的鲁棒性），然后将带噪声的bounding-box放大，将其映射到原高分辨率图像的域，引入的RoIAlign操作，以可微的方式从高分辨率图像中提取crops。根据图像的原始分辨率，将高分辨率的crops调整为固定大小。表1显示了用于不同分辨率的区域crops的大小；
第三阶段，对每个crops 然后将调整大小的crops传递到相应的regional hourglass，每个regional hourglass都预测了一个latent heatmap landmark，类似global hourglass；
第四阶段，使用softargmax 操作从这些区域热图中回归 landmark的地标。利用之前计算的相应尺度因子，将这些区域 landmark 恢复到图像的原始分辨率上；然后将单个区域的landmark 映射到整个高分辨率图像，最终得到高分辨率人脸的landmark 位置坐标。

在这里插入图片描述

训练细节：

首先网络输入 $256\times 256$ 图像进行训练，到网络收敛；
输入 $512\times 512$ 图像，并使用 $256\times 256$ 图像训练好的权重进行初始化；
…
直到图像分辨率为 $4096\times4096$

2.1 AttentionDriven Cropping

使用来自global hourglass的预测的ladmark 从原始高分辨率图像中提取感兴趣的区域(RoI)。如图2所示 left eye,the right eye, the nose and the mouth 区域。regional hourglass。
在这里插入图片描述

2.2 Training Data

因为没有公开可以用的高分辨率人脸数据集，所以作者采用“High-quality single-shot capture of facial geometry”方法在特定的摄影棚中拍摄。从执行24种不同面部表情的8台摄像机中以4K分辨率捕捉了47个测试者，并在这些图像上手动标注了89个面部landmark。这89个landmark 的全部集合如图2所示。

在47名受试者中，随机抽取24个人的人脸数据进行训练，使用其余23个人的人脸数据进行评估。训练集由4608张图像组成，测试集由4416张图像组成。

为了在 $256 \times 256、512 \times 512、1024 \times 1024、2048 \times 2048$ 和 $4096 \times 4096$ 的分辨率下进行实验，训练集和测试集都进行了适当的缩放。如图2所示，眼睛、鼻子和嘴巴的区域。
在高分辨率数据集中，有89个landmark ，只有78个属于区域 landmark。因此，global hourglass 预测了所有89个landmark，而regional hourglasses 预测了总计78个landmark。
对于300W和300VW, 68个landmark中有51个在关注范围内，因此，在使用300W和300VW进行训练时，global hourglass将预测68个landmark，而regional hourglasses将预测总共51个landmark。

2.3 Implementation Details

总体 loss 函数是 $L2\ \ loss$ ,表达式如下：
在这里插入图片描述

$p^g_n$ 表示全局预测第 $n$ 个lanmark, $p^r_n$ 表示区域中预测第 $n$ 个lanmark；
$gt^{lr}_n$ 和 $gt^{hr}_n$ 分别对应第 $n$ 个低分辨率和高分辨率 lanmark ground truth；
$N_{total}$ 和 $N_{att}$ 分别对应总的lanmark 数和attention 区域的landmark 数。

3. Results and Discussion

如图3所示，展示了global和不同regional模型产生的热图的差异。
在这里插入图片描述
图4展示了通过局部热图预测人脸局部landmark，其中绿点表示局部预测结果，黑点表示全局人脸预测的结果。

AttentionDriven 裁剪优点:

首先，它鼓励每个区域网络只关注人脸的一个特定区域，从而学习特定区域的特征，从而帮助以更高的精度预测landmark，如图3所示。
第二，由于每个区域模型只关注人脸的特定部分，因此区域landmark的质量是独立于其他区域外观的。这一特性能够使整个landmark的预测质量更加健壮，以适应外观上的全局变化，如图4所示。
第三，设计的 global-local 结构只处理高分辨率输入图像的有意义的区域，有意地丢弃高分辨率图像中不相关的部分，避免了将网络设置得非常深导致GPU内存紧张，通过只关注ROI，区域沙漏可以在有意义的ROI范围内预测地标，从而利用捕获图像中的高频细节，减少计算开销。

300W
300-VW
图6和表4显示了算法在256 - 4096分辨率下与不同方法的定量比较结果。
验证hourglass 的表现，图7中，作图是有额外添加了一个hourglass，右图是使用CPM block 或者CNN6/7替换hourglass后模型的表现。
图8 比较在4K分辨率下的测试结果和在不同分辨率下的训练结果，可以确认在可能的情况下采用更高分辨率的训练确实有好处。

在图9中，展示了一些不同测试图像的定性结果。

图10展示了该模型的局限性，在遮挡情景下表现比较差。