[人脸对齐] Attention-Driven Cropping for Very High Resolution Facial Landmark Detection

转载请注明作者和出处: http://blog.csdn.net/john_bh/

论文链接: Attention-Driven Cropping for Very High Resolution Facial Landmark Detection
作者及团队:苏黎世联邦理工学院
会议及时间:CVPR 2020

1.主要贡献

作者分析现有的用于训练人脸关键点检测算法的数据集主要是由低分辨率图像组成的,目前的算法仅限于输入具有可比质量和分辨率的训练数据集。另一方面,随着消费型相机的质量逐年提高,高分辨率的图像也变得越来越普遍。因此,需要利用高分辨率图像中丰富的信息的算法。但是又因为GPU内存限制,不能够再现有算法上进行高分辨率人脸关键点检测,唯一的解决方案是降低图像样本,牺牲分辨率和质量。所以作者基于注意力机制提出完全卷积的区域架构,专门设计用于预测非常高分辨率的人脸图像上的landmark,而不需要向下采样。

个人认为作者说因为GPU内存限制不能处理高分辨率人脸关键点检测进而提出他的算法,这样一个理由有点牵强

Contributions:

  • 结合了注意力驱动的裁剪人脸区域,引入可微的 soft-argmax 操作,搭建一个基于人脸区域的全卷积网络 landmark 检测器。

2. Network Architecture

整体框架如图1所示。

  1. 第一阶段,获取Global Latent Heatmap landmark。输入一张高分辨率的人脸图像,使用Average Pooling对图像进行downsample,生成 Low Resolution Proxy;接着经过Global Hourglass 生成 Global Latent Heatmap,然后经过softargmax 回归初步预测 整个人脸的landmark;
  2. 第二阶段,从高分辨率图像中根据上一步的热图提取RoI。 对于人脸的每个区域,使用softargmax的结果精确地计算出一个边界框(每个边界框由对应其左上角和右下角的4个坐标表示); 将正态分布的噪声单独添加到每个bounding-box的宽度和高度上(使区域模型对bounding-box内区域的位置具有足够的鲁棒性), 然后将带噪声的bounding-box放大,将其映射到原高分辨率图像的域,引入的RoIAlign操作,以可微的方式从高分辨率图像中提取crops。根据图像的原始分辨率,将高分辨率的crops调整为固定大小。 表1显示了用于不同分辨率的区域crops的大小;
  3. 第三阶段,对每个crops 然后将调整大小的crops传递到相应的regional hourglass,每个regional hourglass都预测了一个latent heatmap landmark,类似global hourglass;
  4. 第四阶段,使用softargmax 操作从这些区域热图中回归 landmark的地标。利用之前计算的相应尺度因子,将这些区域 landmark 恢复到图像的原始分辨率上; 然后将单个区域的landmark 映射到整个高分辨率图像,最终得到高分辨率人脸的landmark 位置坐标。

在这里插入图片描述

训练细节:

  1. 首先网络输入 256 × 256 256\times 256 256×256 图像进行训练,到网络收敛;
  2. 输入 512 × 512 512\times 512 512×512 图像,并使用 256 × 256 256\times 256 256×256 图像训练好的权重进行初始化;
  3. 直到图像分辨率为 4096 × 4096 4096\times4096 4096×4096

2.1 AttentionDriven Cropping

使用来自global hourglass的预测的ladmark 从原始高分辨率图像中提取感兴趣的区域(RoI)。如图2所示 left eye,the right eye, the nose and the mouth 区域。regional hourglass。
在这里插入图片描述
在这里插入图片描述

2.2 Training Data

因为没有公开可以用的高分辨率人脸数据集,所以作者采用“High-quality single-shot capture of facial geometry”方法在特定的摄影棚中拍摄。从执行24种不同面部表情的8台摄像机中以4K分辨率捕捉了47个测试者,并在这些图像上手动标注了89个面部landmark。这89个landmark 的全部集合如图2所示。

在47名受试者中,随机抽取24个人的人脸数据进行训练,使用其余23个人的人脸数据进行评估。训练集由4608张图像组成,测试集由4416张图像组成。

为了在 256 × 256 、 512 × 512 、 1024 × 1024 、 2048 × 2048 256 \times 256、512 \times 512、1024 \times 1024、2048 \times 2048 256×256512×5121024×10242048×2048 4096 × 4096 4096 \times 4096 4096×4096 的分辨率下进行实验,训练集和测试集都进行了适当的缩放。如图2所示,眼睛、鼻子和嘴巴的区域。
在高分辨率数据集中,有89个landmark ,只有78个属于区域 landmark。因此,global hourglass 预测了所有89个landmark,而regional hourglasses 预测了总计78个landmark。
对于300W和300VW, 68个landmark中有51个在关注范围内,因此,在使用300W和300VW进行训练时,global hourglass将预测68个landmark,而regional hourglasses将预测总共51个landmark。

2.3 Implementation Details

总体 loss 函数是 L 2    l o s s L2\ \ loss L2  loss,表达式如下:
在这里插入图片描述

  • p n g p^g_n png 表示全局预测第 n n n 个lanmark, p n r p^r_n pnr 表示区域中预测第 n n n 个lanmark;
  • g t n l r gt^{lr}_n gtnlr g t n h r gt^{hr}_n gtnhr 分别对应第 n n n 个低分辨率和高分辨率 lanmark ground truth;
  • N t o t a l N_{total} Ntotal N a t t N_{att} Natt 分别对应总的lanmark 数和attention 区域的landmark 数。

3. Results and Discussion

如图3所示,展示了global和不同regional模型产生的热图的差异。
在这里插入图片描述
图4展示了通过局部热图预测人脸局部landmark,其中绿点表示局部预测结果,黑点表示全局人脸预测的结果。
在这里插入图片描述

AttentionDriven 裁剪优点:

首先,它鼓励每个区域网络只关注人脸的一个特定区域,从而学习特定区域的特征,从而帮助以更高的精度预测landmark,如图3所示。
第二,由于每个区域模型只关注人脸的特定部分,因此区域landmark的质量是独立于其他区域外观的。这一特性能够使整个landmark的预测质量更加健壮,以适应外观上的全局变化,如图4所示。
第三,设计的 global-local 结构只处理高分辨率输入图像的有意义的区域,有意地丢弃高分辨率图像中不相关的部分,避免了将网络设置得非常深导致GPU内存紧张,通过只关注ROI,区域沙漏可以在有意义的ROI范围内预测地标,从而利用捕获图像中的高频细节,减少计算开销。

  • 300W
    在这里插入图片描述
    在这里插入图片描述
  • 300-VW
    在这里插入图片描述
  • 图6和表4显示了算法在256 - 4096分辨率下与不同方法的定量比较结果。
    在这里插入图片描述
    在这里插入图片描述
  • 验证hourglass 的表现,图7中,作图是有额外添加了一个hourglass,右图是使用CPM block 或者CNN6/7替换hourglass后模型的表现。
    在这里插入图片描述
  • 图8 比较在4K分辨率下的测试结果和在不同分辨率下的训练结果,可以确认在可能的情况下采用更高分辨率的训练确实有好处。
    在这里插入图片描述
    在图9中,展示了一些不同测试图像的定性结果。
    在这里插入图片描述
    图10展示了该模型的局限性,在遮挡情景下表现比较差。
    在这里插入图片描述

个人认为是作者把人脸分割成不同区域去分别预测 landmark,在人脸局部预测上肯定有精度的提升,但是这样以来就会割裂人脸五官的整体关联性,所以当遇到遮挡的时候不能都从其他区域来推断遮挡区域的landmark 位置,导致对遮挡场景表现较差。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值