论文题目:
LUVLi Face Alignment: Estimating Landmarks’ Location, Uncertainty, and Visibility Likel. 2020CVPR
下载链接:
论文解读:
Abstract
- 提出了以往人脸关键点算法所存在的问题:通常人脸关键点检测任务,不会关注每个点的有效性,只能按照预定义的点的数量回归出全部关键点,并且不关注关键点本身是否被遮挡。
- 主要贡献
(1)提出LUVLi作为损失函数来优化深度网络,从而达到对关键点未知性的估算;
(2)发布一个新的68点数据集,数据集包含19000张人脸图像,并且每张图像的每个关键点都被标明是否被遮挡
1. Introduction
以下内容来自 john_bh
现代人脸对齐方法(面部界标定位)在大多数情况下效果都很好,但是所有这些方法都在一定程度上失败了。不幸的是,几乎所有最新技术(SOTA)都仅输出预测的地标位置,而没有评估下游任务是否(或多少)应该信任这些地标位置。这是令人担忧的,因为面部对齐是许多安全关键型应用程序中的关键预处理步骤,其中包括高级驾驶员辅助系统(ADAS),驾驶员监视和生命体征的远程测量[57]。由于深层神经网络因产生过度自信的预测而臭名昭著[33],对其他神经网络技术也提出了类似的担忧[46],并且在对抗性机器学习时代,对抗性图像可能会严重威胁其发展,它们变得更加尖锐。一个系统[14]。但是,以前的人脸对齐工作(通常是地标定位)在很大程度上忽略了不确定性估计的领域。
我们发现,选择用于计算均值和协方差的方法至关重要。最好使用热图而不是直接回归来获得地标位置。为了使用热图以可区分的方式估计地标位置,我们不选择每个地标热图的最大值(argmax)的位置,而是建议使用每个热图的正元素的空间均值。与地标位置不同,不确定性分布参数最好通过直接回归而不是从热图获得。为了估计预测位置的不确定性,我们添加了一个Cholesky估计器网络(CEN)分支来估计多元高斯或拉普拉斯概率分布的协方差矩阵。为了估算每个地标的可见性,我们添加了可见性估算器网络(VEN)。我们使用联合损失函数(称为位置,不确定性和可见性可能性(LUVLi)损失)将这些估计值合并在一起。设计此模型的主要目的是估计地标定位的不确定性。在此过程中,我们的方法不仅可以产生准确的不确定性估计,而且还可以在多个面部对齐数据集上产生SOTA界标定位结果。
不确定性大致可分为两类[41]:认知不确定性与对生成观测数据的模型缺乏了解有关,而不确定性与观测中固有的噪声(例如传感器或标签噪声)有关。由人类标记者在图像上标记的地面真相地标位置在图像的多个标记之间会因不同的人类标记者(甚至由同一人类标记者)而异。此外,这种变化本身会在不同的图像和地标之间发生变化(例如,对于被遮挡的地标和光线不足的图像,其变化会更大)。我们方法的目标是估计这种不确定性。
每个图像每个地标只有一个地面标记的位置这一事实使估算这种不确定性分布变得困难,但并非不可能。为此,我们使用参数模型进行不确定性分布。我们训练了一个神经网络来估计每个输入人脸图像的每个界标的模型参数,从而在该界标的地面真实位置模型下最大化似然性(汇总所有训练脸部的所有地标)。
主要工作内容如下:
(1)这是引入用于面对齐的参数不确定性估计概念的第一项工作。
(2)我们提出了一个端到端可训练模型,用于联合估计地标位置,不确定性和可见性可能性(LUVLi),建模为混合随机变量。
(3)我们使用多元高斯和多元拉普拉斯概率分布比较我们的模型。
(4)我们的算法在多个面部对齐数据集上产生准确的不确定性估计和最新的地标定位结果。
(5)我们将发布一个新的数据集,其中将以手动方式标记各种姿势中超过19000张面部图像上68个地标的位置,其中每个地标也被标记为三种可见性类别之一。
2. Related Work
3. Proposed Method
4. New Dataset: MERL-RAV
5. Experiments
5.1 300-W Face Alignment
5.2 AFLW-19 Face Alignment
5.3 WFLW Face Alignment