PFLD: A Practical Facial Landmark Detector--Xiaojie Guo

Guo X , Li S , Zhang J , et al. PFLD: A Practical Facial Landmark Detector[J]. 2019.

该论文亮点如下:

  • 轻量级:以MobileNet blocks构建轻量级网络。
  • 设计新的损失函数:一个训练集可能包含大量的正面人脸,而缺乏大姿势人脸数据。这将降低处理大姿态情况下的准确性。为了解决这个问题,我们对与丰富的训练样本相对应的错误给予更多的惩罚。考虑到上述两个问题,即几何约束和数据不平衡,我们设计了一个新的损失。
  • 增加多尺度全连接层:扩大感受野,更好地捕捉人脸的整体结构。
  • 在性能上,模型可以调整到仅有2.1Mb的大小,在手机上可以达到140帧以上,在表现上:
    在这里插入图片描述

在这里插入图片描述
MNE指标的计算方法如上所示, d I O D d_{IOD} dIOD表示两眼之间的距离,体现了标准化。总地来说就是,N个关键点 Σ Σ Σ归一化坐标和真实坐标的范式距离除以两眼间距离
更多参考:人脸对齐算法常用评价标准总结

1、面对的四大挑战

1.1 局部变化

表情、高光、阴影和遮挡给人脸图像带来部分挑战和干涉,一些区域的地标可能偏离其正常位置,甚至消失。

1.2 全局变化

(头部)姿态和图像质量是影响图像表现的两个主要全局因素,当人脸全局结构被错误估计时,将导致一部分的关键点定位差。

1.3 数据不平衡

数据集在类别(或者属性)分布不均衡,很可能导致算法不能正确的表示数据的特征,从而在不同属性上得到不满意的精度。

1.4 模型效率

诸如在嵌入式、手机等上面的应用,大家希望建立一个准确、高效、紧凑、实用的关键点检测系统。

Methodology

针对挑战1、2和3,设计了一个损失函数
针对挑战4,使用MobileNet Block作为主干网络

2、损失函数的设计

首先,平等地处理丰富的类型样本和稀少的类型样本是不公平的,训练的网络对极端情况不能做出很好的处理。所以一个基本原则就是:对稀有训练样本的错误进行(更深的)惩罚,对丰富的样本进行(普通的)惩罚。

Loss公式如下:
在这里插入图片描述
∣ ∣ d ∣ ∣ ||d|| d:就是 L 2 L_2 L2距离,常规的MSE
γ γ γ:一个与头部姿态有关的值,姿态越扭转该值越大,姿态越扭转该值越小。印证了稀有样本(大姿态)的惩罚(Loss)更深(大),丰富的样本(小姿态,正常脸)的惩罚(Loss)更普通(小)

γ γ γ展开:
在这里插入图片描述

  • ω n ω_n ωn为可调控的权值函数,针对不同的情况选取不同的权值,如正常情况、遮挡情况、暗光情况等等(针对挑战1-局部变化)。
  • θ θ θ为人脸姿态的三维欧拉角(针对挑战2-全局变化)。
  • Loss:结合 ω n ω_n ωn θ θ θ,Loss对稀少数据进行更深的惩罚(针对挑战3-数据不平衡)。

因:情况极端、姿态大→ ω n ω_n ωn ( 1 − c o s θ ) (1-cosθ) (1cosθ)变大→Loss变大
故:该Loss对稀少样本的惩罚更大

3、网络结构设计

该网络结构分为了两个自子网络。橙色虚线框是网络的主干网络,用于预测关键点坐标,绿色虚线框用于人脸三维欧拉角的预测,该三维欧拉角最终会被嵌入上述的Loss中,帮助主干网络在极端数据下的收敛。
在这里插入图片描述
从上图中可以看出该网络架构的特性:

  • 1、主干网络+辅助网络:一个用于关键点的预测,一个用于脸姿态的估计(三维欧拉角,即Loss中的θ)
  • 2、主干网络使用MobileNetBlock:构建轻量级网络
  • 3、MobileNetBlock的特征输出即作为关键点预测的特征输入,也作为人脸姿态的特征输入
  • 4、多尺度特征:人脸具有强大的全局结构:诸如对称性和空间关系,因此使用跨尺度(stride>1)卷积运算完成多尺度特征的扩展

3.1 主干网络

主干网络结构图如下:
在这里插入图片描述
表:主干网配置。每一行代表一个相同层的sequence,重复n次。相同sequence中的所有层都有相同数量的输出通道。每个sequence的第一层都有一个stride:s。扩展因子t总是应用于输入大小。

首先,考虑到人脸有很强的全局结构,比如五官的对称性和空间关系,这种全局结构能够帮助我们更精准地定位关键的,因此我们将其扩展到多尺度映射,而不是但尺度的特征映射。扩展是通过逐步卷积实现的,扩大了感受野。最后通过完全连接多尺度特征图完成最终的预测。详细配置见上图。由于MobileNet技术(深度可分离卷积、线性瓶颈和反向残差)[13,26]的满意性能,我们用MobileNet块取代了传统的卷积操作。

3.2 辅助网络

辅助网络结构图:
在这里插入图片描述

该网络只在训练时使用,应用的时候不存在
辅助网络的输入是来自主干网的 4-th block(见表1)

辅助网络主要用来估计头部的三维旋转角:yaw、pitch、roll角,有了这三个欧拉角,就可以估计头部姿态了。

“为什么不直接用预测的关键的和关键的标签直接计算欧拉角呢?”:
One may wonder that given predicted and ground-truth
landmarks, why not directly compute the Euler angles from
them? Technically, it is feasible. However, the landmark
prediction may be too inaccurate especially at the beginning
of training, which consequently results in a low-quality estimation of the angles. This could drag the training into
dilemmas, like over-penalization and slow convergence. To
decouple the estimation of rotation information from landmark localization, we bring the auxiliary subnet.

大概意思是,通过预测的关键的和真实关键计算的欧拉角可能不太准(毕竟此时预测的关键点本身就不太准),会将其引入到Loss中可能会影响网络的训练,比如过度惩罚或者收敛缓慢。

3.2.1 本文中是如何计算三个欧拉角的?

辅助网络是计算三个欧拉角的,那么这个label是来的呢?其实是一开始先经过某种方式计算得到的,然后储存为label再来训练辅助网络直接预测欧拉角。计算方式如下:

  1. 预定义一个标准脸(在一堆正面上取平均值),并在主脸平面上固定11个关键点训练脸作为所有的参考;
  2. 使用每个脸对应的11个关键点和参考关键点来估计旋转矩阵;
  3. 从旋转矩阵计算欧拉角;

3.2.2 如何通过旋转矩阵计算欧拉角?

DeTone等人。[1] 提出了一种估计两幅相关图像之间同源性的深度网络。偏航角、滚转角和俯仰角可以从估计的同源矩阵中计算出来。注意:这里的同源性图片其中一张是标准正脸,在本文中的标准正脸在认为标准人脸都具有相似结构的基础上,使用平均方法算出来的标准脸。

[1] D. DeTone, T. Malisiewicz, and A. Rabinovich.
Deep image homography estimation. CoRR,
abs/1606.03798, 2016.

4、实验的细节

在训练过程中,

  • 人脸都被裁剪并调整为112×112
  • 使用Keras框架(原文中是“Kera framework”,应该就是Keras)
  • bitch_size=256
  • 使用Adam优化器
  • 权重衰减= 1 0 − 6 10^{-6} 106,momentum=0.9
  • 在整个训练过程中,学习率固定为10−4
  • 最大迭代次数为64K

整个网络都在Nvidia GTX1080Ti GPU上进行训练。对于300W,我们通过翻转每个样本,并以5°的间隔将它们从−30°旋转到30°来增加训练数据。此外,每个样本都有一个20%的面部大小的区域被随机遮挡。而对于AFLW,我们将原始训练集输入网络,而没有任何数据增强。在测试中,只有主干网络(没有辅助网络)。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
HRNet是一种用于面部关键点检测的人工智能模型。面部关键点是面部的几个具有重要意义的特定点,例如眼睛、鼻子、嘴巴等。HRNet采用高分辨率表示的思想,通过构建一个多分辨率的深度网络来提取不同层次的特征,从而提高了模型对细节的感知能力。 HRNet-Facial-Landmark-Detection是基于HRNet的面部关键点检测模型。它通过先对输入图像进行预处理,将图像转换为HRNet网络能够处理的格式,然后通过多层次的卷积神经网络提取图像中的特征。这些特征包含了面部关键点的信息,然后通过一个后续的全连接层将这些特征映射到最终的关键点位置。 HRNet-Facial-Landmark-Detection具有准确度高、鲁棒性强的优点。它可以在低光、遮挡等复杂环境下,准确地定位面部关键点。因此,HRNet-Facial-Landmark-Detection在人脸识别、表情识别、虚拟现实等领域具有广泛的应用前景。 需要注意的是,HRNet-Facial-Landmark-Detection的性能受到输入图像质量和数据集的限制。如果输入图像质量较差或数据集中没有涵盖模型需要的样本多样性,可能会降低模型的准确度。此外,模型的训练和测试过程需要耗费大量的计算资源和时间。 总之,HRNet-Facial-Landmark-Detection是一种高效、准确的面部关键点检测模型,它可以在复杂环境下准确地定位人脸的关键点位置。它的应用领域广泛,有助于改进人脸识别、表情识别和虚拟现实等技术。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是一个对称矩阵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值