[人脸对齐]Semantic Alignment: Finding Semantically Consistent Ground-truth for Facial Landmark Detection

转载请注明作者和出处: http://blog.csdn.net/john_bh/

论文链接: Semantic Alignment: Finding Semantically Consistent Ground-truth for Facial Landmark Detection
作者及团队:中国科学院自动化研究所模式识别国家实验室 & 美国科学院
会议及时间:CVPR 2019
code:

1. 主要贡献

解决 facial landmark semantic ambiguity 问题。

作者提出在人脸关键点标注和预测中 landmark 存在semantic ambiguity 问题。semantic ambiguity是指一些 landmark(如沿脸部轮廓均匀分布的 landmark)定义不清晰、不准确,导致标注者标注不一致。这将会导致接下来模型的性能下降。

  1. 作者提出提出了一个新的概率模型,该模型引入了一个潜在变量,即语义上一致的‘real’ ground-truth来优化。框架包含两部分:第一部分是训练 landmark 检测的CNN 网络;第二部分是搜索 ‘real’ ground-truth。这两个部分是交替优化的:搜索“real”ground-truth监督CNN的训练;训练的CNN协助寻找 ‘real’ ground-truth。
  2. 提出了一种基于全局面形约束的全局热图校正单元(global heatmap correction unit:GHCU)来校正由于遮挡和低质量而导致的预测异常点。

“语义歧义”使注释者对弱语义点的位置感到困惑,注释者在注释过程中不可避免地引入随机噪声。不一致和不精确的标注会误导CNN的训练,导致性能下降。具体来说,当深层模型大致收敛于公共数据库提供的地面真相时,网络训练就会被“语义歧义”引起的随机注释噪声所误导。图1所示。显然,这些噪声会使网络训练陷入局部极小值,导致结果退化。红色:预测的landmark;绿色:标注的landmark。
在这里插入图片描述

2. Semantic ambiguity

Semantic ambiguity 是指一些landmarks没有明确准确的定义。作者发现语义歧义可能发生在任何面部点上,但主要发生在语义较弱的面部点上。例如,定义landmarks沿面部轮廓均匀分布,而不明确其确切位置。这种模糊性可能会影响:

  1. 注释的准确性:在对数据库进行注释时,注释者可能会引入随机错误,从而对那些缺乏明确定义的弱语义点产生不一致的ground-truths。
  2. 深度模型训练的收敛性:不一致的ground-truths会产生不一致的反向传播梯度,导致模型收敛困难。

CNN为弱语义点提供了一个候选区域,而不是一个确定的位置。
如图2 (a)所示。可以看到,语义强点的热图接近高斯分布,而语义弱点的三维热图有一个“flat hat”,意思是该区域的置信度非常相似。因为选择置信度最高的位置作为输出,landmark detector倾向于输出‘flat hat’ 上一个随机位置。
在这里插入图片描述
图2 (b)eyebrow从不同的检查点随眉缘波动,总是产生相当大的损失需要优化。然而,这种损失是无效的,因为来自不同检查点的预测点也会在注释位置的邻近区域波动(图2 (b)中的绿色点)。可以看出,模型收敛后,标注噪声造成的损失主导了反向传播的梯度,使得网络训练陷入了局部极小值。红色点:不同迭代中预测的landmark; 绿色点:标注点。

3. Semantically consistent alignment

  1. 使用概率模型对landmark检测问题建模。 从概率的角度来看,训练一个基于cnn的 landmark 检测器可以表述为一个似然最大化问题:
    在这里插入图片描述
    其中 o ∈ R 2 N o\in R^{2N} oR2N 是 landmark 的坐标, N N N 是 landmark 数量, x x x 是图像, W W W 是CNN 参数。

    热图上的一个像素值可以作为该像素上一个特定landmark的置信度。因此,整个热图作为图像上的概率分布。

    假设存在一个没有semantic ambiguity的‘real’ ground-truth,可以更好地监督网络训练,所以引入了一个潜在变量 y ^ \hat y y^ 表示‘real’ ground-truth,解决人为注释噪声引起的semantic ambiguity。

    公式(1)可以重新表示为公式(2):
    在这里插入图片描述
    其中 o o o y ^ \hat y y^的观测值; P ( o ∣ y ^ ) P(o|\hat y) P(oy^) 是给定 o ,   y ^ o ,\ \hat y o, y^ 的先验; P ( y ^ ∣ x ; W ) P(\hat y|x;W) P(y^x;W) 似然

  2. 先验模型建模:Prior model of ‘real’ ground truth
    为了优化公式2,需要一个比较好的先验模型来规范化 y ^ \hat y y^ ,并且减少搜索空间。假设第 k k k 个 landmark y ^ k \hat y^k y^k 接近 o k o^k ok,因此,先验模型可以表示为在 { o k , y ^ k } \{o^k,\hat y^k\} {oky^k}对上的高斯相似性:
    在这里插入图片描述
    其中 σ 1 \sigma_1 σ1 控制misalignment 的灵敏度, o k o^k ok在迭代过过程中初始为人为的标注,并且会不断更新。

  3. 似然估计建模:Network likelihood model
    通过置信度图来表示逐点联合概率,该置信度图可以通过深度模型的热图来建模。Hourglass 预测的热图包含以 ground-truth y ^ k \hat y^k y^k 为中心的2D 高斯特特征图。对于任何一个位置 y y y y y y 周围的热图区域遵循标准高斯越多, y y y y ^ \hat y y^ 的可能性越大,所以似然可以建模为预测热图(预测分布)和标准高斯分布(预期分布) 之间的根部距离。(皮尔森卡方校验):
    在这里插入图片描述
    其中 E E E 表示标准高斯热图,理想的表现; Φ \Phi Φ 表示预测热图上的一个裁剪块(大小和高斯模板一样),中心在 y y y上。

    然后,联合概率就可以建模为所有 landmark 上最大的高斯相似性的乘积:
    在这里插入图片描述
    其中 k k k 表示 landmark 的索引; σ 2 \sigma_2 σ2 表示 bandwidth of likelihood。

    首先使用人工标注的信息训练一个网络。然后,将经过训练的网络看作是一个超级注释器来指导对 y ^ \hat y y^搜索。因为训练好的网络能够从整个训练集中捕获 annotation noise 的统计规律,从而生成更好的semantic consistency预测。

  4. Optimization
    合并公式2,3,5,对 likelihood 取对数得到公式6,减小搜索空间,公式6可以改写为公式7:
    在这里插入图片描述
    优化公式7,在每轮迭代中, w w w 固定,搜索 y ^ \hat y y^,然后 y ^ \hat y y^ 固定,更新 w w w ,交替优化。
    第一步: w w w 固定,搜索 y ^ \hat y y^:在 N ( o k ) \mathcal{N}(o^k) N(ok) 区域内的所有像素内搜索 y ^ k \hat y^k y^k,如 Figure3.所示。黄色box 表示定义的搜索空间 N \mathcal{N} N; 红色 box 表示该区域对应一个候选区域 y ^ \hat y y^
    在这里插入图片描述
    最小化 loss 如公式8:
    在这里插入图片描述
    其中 在第一次迭代中 y ^ k \hat y^k y^k 的观察值 o k o^k ok 是人工标注的(ground-truth),从第二次迭代开始, o k o^k ok 更新为 y ^ t − 1 k \hat y^k_{t-1} y^t1k,即上一次迭代后 y ^ k \hat y^k y^k的结果。随着迭代的进行, y ^ t k \hat y^k_{t} y^tk 收敛到 ‘real’ ground-truth,因为当前的观测值 o k o^k ok(即 y ^ t − 1 k \hat y^k_{t-1} y^t1k)和CNN预测都将变得更加可信。

    第二步: y ^ \hat y y^ 固定,更新 w w w
    在这里插入图片描述
    优化成为 y ^ \hat y y^ 监督下的典型训练网络过程,其中 y ^ \hat y y^ 是第一步中得到的潜在的 ‘real’ ground-truth。
    图4显示了 从观测的 o o o ( y ^ \hat y y^ 是最后的迭代)到估计的 real ground-truth y ^ \hat y y^ 逐渐收敛的过程。发现优化 y ^ \hat y y^的语义一致性很容易收敛到一个稳定的位置,不再有图2 b中存在的难以收敛问题。绿色点: observation o o o;红色点:估计 real ground-truth y ^ \hat y y^
    在这里插入图片描述

  5. Global heatmap correction unit:解决遮挡,低质量图像问题。
    传统的基于热图的方法将每个landmark作为一个单独的任务进行预测,而不考虑全局的脸型。当模型拟合低质量和遮挡图像时,预测可能会失败,图5b所示,异常值如遮挡破坏了面部形状,显著降低了整体性能。
    在这里插入图片描述
    把预测的热图作为输入,并通过轻量CNN(如表1所示) 直接回归 y ^ \hat y y^。GHCU从训练数据中隐式学习整体人脸形状约束,并始终给出人脸形状landmarks,,如图5所示。实验表明,在同一硬件平台上,GHCU拟合速度比PCA快8倍,拟合精度也比PCA高。
    在这里插入图片描述

4. Experiments

  • 300W
    如表2所示,HGs + SA + GHCU 相比HGs + SA 有很小的提升,是因为GHCU 主要解决低分辨率,遮挡等问题的图像,而300W图像的分辨率比较高。作者有引入了Norm(normalize the in-plane-rotation by training a preprocessing network)HGs+SA+GHCU+Norm,发现模型有很大提升。
    在这里插入图片描述
  • AFLW
    在这里插入图片描述
  • 300-VW
    在这里插入图片描述
  • Balance of prior and likelihood
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值