[人脸关键点检测] Adaptive Wing loss 论文阅读

转载请注明作者和出处: http://blog.csdn.net/john_bh/

ICCV链接:Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression
Arxiv链接:Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression
作者及团队:俄勒冈州立大学(美国) & JD Digits
会议及时间:ICCV 2019
code:原作者开源github 地址

1.主要贡献

这是一篇在人脸关键点检测中基于热图回归的损失函数研究。

  1. 改进了wing loss ,提出了基于热图回归的Adaptive wing loss,它能够使其形状适应不同类型的 ground truth heatmap pixels,自适应属性可减少前景像素上的小误差,以实现精确的 landmark 定位,同时容忍背景像素上的小误差,以实现更高的收敛速度;
  2. 提出了加权损失图, 解决前景像素和背景像素之间的不平衡问题,能够在训练过程中专注于前景像素和困难的背景像素,有助于使得前景回传更大的loss,背景传递更小的loss,使得训练效果更好;
  3. 使用CoordConv 对坐标信息包括边界坐标信息进行编码,更像一种attention机制,有助于网络学习到更好的效果;
  4. 提出了将关键点的边界Boundary和关键点landmark一起训练的思路;
  5. Adaptive wing loss还有助于其他热图回归任务,例如人体关键点。

2. 总体框架

如图3所示,整个框架有 4 个hourglass模块, 输入 256 ∗ 256 256*256 256256 大小的人脸图像,会对该图像进行长宽各10%的扩充,输出图像大小为 64 ∗ 64 64*64 6464 ,预测的特征图包含c个通道的 landmarks 和1个通道的 boundary。其中,landmarks表示人脸关键点,一个channel预测一个点,boundary表示人脸轮廓的分割的线,Landmarks+boundary一起预测有助于促进网络学习的更好。
在这里插入图片描述

3. Adaptive wing loss

3.1 相关方法的调研

基于heat map 回归的关键点检测:

  1. 在热图回归中,通过绘制以每个通道的的每个 ground truth 为中心的高斯分布,生成 ground truth heat map。
  2. 模型在像素水平上针对ground truth heat map进行回归,然后使用预测的热图来推断 landmark 位置。

    如图1所示,前景像素(具有正值的像素)的预测准确性,尤其是接近每个高斯分布模式的像素(图1),对 landmark 预测至关重要,即使这些像素上的很小预测误差也可能导致预测偏离正确模式。相反,准确预测背景像素(具有零值的像素)的值并不重要,因为这些像素在大多数情况下不会影响 landmark 预测。但是,对困难的背景像素(图1 中difficult background)的预测精度也很重要,因为它们经常被错误地回归为前景像素,并可能导致不准确的预测。
    在这里插入图片描述

作者分析了MSE损失,在基于heat map 回归中使用MSE存在两个问题:

	1. MSE对小误差不敏感,这将会影响高斯分布模型的表现;
	2. 在训练过程中,MSE对所有像素采用相同的权重,但是背景像素比前景像素多很多,存在像素类别不平衡问题

如图2所示,MSE损失训练的模型倾向于预测前景像素上具有低强度的模糊且膨胀的热图(图2c),而这些低质量的heat map 会导致错误的landmark 预测。作者尝试使用 wing loss,发现背景像素上的小误差将累积明显的梯度,从而导致训练过程发散。所以作者提出 Adaptive Wing loss。
在这里插入图片描述

对于热图回归,训练收敛于:
在这里插入图片描述
N 是训练样本数目;H,W,C分别表示 heatmap 的高,宽,和 通道; L o s s n Loss_n Lossn 表示第 n n n 个样本的损失; y i , j , k 和 y ^ i , j , k y_{i,j,k} 和 \hat y_{i,j,k} yi,j,ky^i,j,k分别别表示 ground truth 像素和 预测的像素。

因此,具有较大梯度幅度的像素上的正误差(影响较大)将需要通过具有较小影响的许多像素上的负误差来平衡。 与梯度大小较小的错误相比,梯度大小较大的错误也将在训练期间更加关注

wing loss: wing loss 无法克服在 y − y ^ = 0 y-\hat y = 0 yy^=0 时梯度的不连续性,因为在这一点上梯度幅度较大,与 L 1 L1 L1 损失相比,训练更难以收敛。此属性使 Wing loss 不适用于 heatmap 热图回归,因为在所有背景像素上都计算了Wing loss 后,背景像素上的小误差会产生不成比例的影响。训练在这些像素上输出零或小的梯度的神经网络非常困难,将会导致模型很难收敛。
在这里插入图片描述

3.2 提出 Adaptive wing loss

通过分析希望损失函数在误差较大时具有恒定的影响力,因此对于不正确的注释和遮挡将是可靠的,随着训练过程的继续和误差的减小,将出现两种情况:

  • 对于前景像素,影响(以及渐变)应开始增加,以便训练能够专注于减少这些误差。然后,当误差非常接近于零时,影响应迅速减小,以使这些“足够好”的像素不再被关注。正确估计的减小的影响有助于网络保持收敛,而不是像 L 1 L_1 L1和wing loss 那样振荡
  • 对于背景像素,梯度的行为应更类似于 M S E MSE MSE 损失,即随着训练误差的减小,梯度将逐渐减小至零,因此,当误差较小时,影响将相对较小。此属性减少了训练对背景像素的关注,从而稳定了训练过程。
    在这里插入图片描述
  • y 和 y ^ y 和 \hat y yy^ 分别表示 ground truth heatmap 和预测的 heatmap;
  • ω , θ , α , ϵ \omega, \theta, \alpha, \epsilon ωθαϵ 都是正数, ω = 14 , θ = 0.5 , α = 2.1 , ϵ = 1 \omega = 14, \theta = 0.5, \alpha = 2.1, \epsilon = 1 ω=14θ=0.5α=2.1ϵ=1;其中 α = 2.1 \alpha = 2.1 α=2.1 因为 y y y 的区间是[0,1],对 y y y 值接近1像素,幂指数 α − y \alpha -y αy 将略大于1,非线性部分将像wing loss ,在小的误差上由较大影响,但与wing loss 不同的是,当误差非常接近于零时,其影响会迅速降至零,如图4所示。另外,较大 ω \omega ω 的和较小的 ϵ \epsilon ϵ 增加对小误差的影响;
  • A = ω ( 1 / ( 1 + ( θ / ω ) ( α − y ) ) ) ( α − y ) ( ( θ / ω ) ( α − y − 1 ) ) ( 1 / ω ) A = \omega(1/(1+(\theta /\omega)^{(\alpha - y)}))(\alpha -y)((\theta / \omega)^{(\alpha -y -1)})(1/\omega) A=ω(1/(1+(θ/ω)(αy)))(αy)((θ/ω)(αy1))(1/ω)
  • C = ( θ A − ω l n ( 1 + ( θ / ω ) ( α − y ) ) ) C = (\theta A-\omega ln(1+(\theta /\omega)^{(\alpha -y)})) C=(θAωln(1+(θ/ω)(αy))),使得函数在 ∣ y − y ^ ∣ = θ |y - \hat y|=\theta yy^=θ 处平滑连续。

在这里插入图片描述
图5展示了幂指数 α − y \alpha -y αy 在不同 y y y 值之间的平稳过渡,使得小误差的影响会随着y值的增大而逐渐增大。
在这里插入图片描述

4. Weighted loss map

在典型的人脸关键点定位中,通常是 64 × 64 64\times 64 64×64大小的 heatmap ,高斯分布大小为 7 × 7 7 \times 7 7×7,这样的话前景像素只占总像素的 1.2 % 1.2 \% 1.2%。对这样一个不平衡的数据分配相等的权值会使训练过程收敛速度变慢,导致训练效果较差。

为了进一步使网络对前景像素和困难背景像素(接近前景像素的背景像素)更加关注,作者引入了加权损失图来平衡不同类型像素的损失,Weighted Loss Map 有助于使得前景回传更大的loss,背景传递更小的loss,使得训练效果更好,如公式4:
在这里插入图片描述

  • H d H^d Hd 是由 ground truth heatmap 通过 3 × 3 3 \times 3 3×3 灰度膨胀产生。
  • loss map mask M M M 设置前景像素和困难背景像素1,其他像素0。

权重损失函数定义如公式5:
在这里插入图片描述

  • ⨂ \bigotimes 是按元素操作;
  • W W W是超参数,控制权重的增加,作者设置 w = 10 w=10 w=10

可视化权重图如图6所示:
在这里插入图片描述

5. Boundary Information

作者参考 LAB 将边界预测作为子任务引入到网络中,但方式有所不同。 除了将边界分成不同的部分,仅使用一个附加通道作为将所有边界线组合到热图的边界通道,这将有效地捕获人脸上的全球信息。 然后,边界信息将通过前向传播的卷积操作自然地聚合到网络中,并且还将在第6节中使用以生成 landmark 坐标图,实验表明这样可以进一步提高定位精度。

6. Coordinate aggregation

将CoordConv 集成到模型中,以提高传统卷积神经网络捕获坐标信息的能力。 除了对 X , Y X,Y XY和半径坐标编码,还利用边界预测仅在边界处生成 X X X Y Y Y 坐标。 更具体地说,将 X X X 坐标编码定义为 C x C_x Cx,根据先前HG的边界预测为 B B B,将边界坐标编码 B x B_x Bx 定义为:
在这里插入图片描述
B y B_y By 以类似的方式从 C y Cy Cy 生成。 坐标通道在运行时生成,然后与原始输入连接以执行常规卷积。

7. Experiments

  • WFLW:如表1所示,其中 wing loss 的 backbone 是ResNet50
    在这里插入图片描述
    在这里插入图片描述
  • COFW:在COFW显示了方法对大姿态和严重遮挡的人脸的鲁棒性,如表2所示:
    在这里插入图片描述
  • 300W:在数据集300W上实验结果显示,达到SOAT,如表3所示:
    在这里插入图片描述
  • 300W private test dataset 如表4所示:
    在这里插入图片描述

7.2. Ablation study

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

8. Supplementary Material

1. Implementation Detail of CoordConv on Boundary Information
在原有的CoordConv 的基础上,增加了两个带有边界信息的坐标编码通道。这个过程的可视化如图8所示:
在这里插入图片描述
2. Evaluation on AFLW
在这里插入图片描述
在这里插入图片描述
3. Effectiveness of AdaptiveWing loss on Training
在这里插入图片描述
4. Robustness of Adaptive Wing loss on datasets with manually added annotation noise
在这里插入图片描述
5. Experiment on different number of HG stacks
在这里插入图片描述
6. Result Visualization
在这里插入图片描述

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
### 回答1: LAPA(Locally Adaptive Patch-based AdaBoost)是一种用于人脸关键点分布的算法。它基于Adaboost框架,通过训练一组局部自适应的补丁分类器来检测人脸关键点。 LAPA算法首先将人脸图像划分为一系列重叠的补丁,然后从这些补丁中提取特征。这些特征可以包括梯度方向直方图、Haar特征等。接下来,通过Adaboost算法选择最佳的特征子集,并使用这些特征子集训练一系列分类器。每个分类器用于检测单个关键点,如眼睛、嘴巴等。 LAPA算法的关键之处在于其自适应能力。它通过加权补丁的方式来处理大范围的人脸形状变化和光照变化。具体而言,更重要的补丁会获得更高的权重,以便更好地适应人脸的小尺度变化。这种自适应能力使LAPA能够在复杂的人脸图像中准确地检测到各种关键点。 总的来说,LAPA算法通过局部自适应的补丁分类器和Adaboost框架实现了人脸关键点分布的检测。它具有较好的自适应能力,在各种人脸图像中都能准确地定位出人脸关键点。这种算法在计算机视觉领域的人脸识别、表情识别等方面有着广泛的应用。 ### 回答2: LAPA(Local Adjacency Pattern Alignment)人脸关键点分布是一种用于人脸识别与分析的算法。它主要通过对人脸图像进行预处理,提取出人脸关键点分布信息。 LAPA算法将人脸图像划分为不同的区域,并对每个区域提取出一组关键点。这些关键点人脸上具有代表性的位置,如眼睛、鼻子、嘴巴等。通过对这些关键点的提取和分布进行分析,LAPA算法能够精确地识别人脸的特征。 LAPA人脸关键点分布具有以下几个特点。首先,它能够对人脸图像进行多尺度分析,使得算法在不同大小和角度的人脸上都能够准确识别关键点。其次,LAPA算法还能够通过对开闭眼、微笑等表情的检测,提取出更多的人脸特征,提高了人脸识别的准确度。此外,LAPA还能够对光线、姿势等影响因素进行适应,从而能够在复杂的环境中进行准确的人脸识别。 通过LAPA算法提取的人脸关键点分布,可以用于人脸识别、表情分析、面部美化等应用。而且,LAPA算法具有较高的准确性和稳定性,在实际应用中取得了良好的效果。随着人工智能技术的不断发展,LAPA算法在人脸识别领域将有更广泛的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值