Facial Landmark Detection by Deep Multi-task Learning-笔记

这是一篇发表于2014年ECCV会议上的论文。论文的作者来自香港中文大学信息工程系,这篇文章主要介绍了一种新的面部标志点检测的方法--通过多个辅助任务(性别检测、眼睛穿戴检测、微笑检测、姿势检测)协助主任务(面部标志点检测)完成相应的工作。除此之外,作者还提出了一种“Multi-task Early stopping”的多任务共同优化时的策略。

文章地址:Facial Landmark Detection by Deep Multi-task Learning


一、问题的解决方案及创新点

针对问题:在面部标志点检测中,头部姿势多变和面部遮挡一直是一个难以解决的问题。

解决办法:作者认为,米昂不表示点检测并不是一个单一的工作,在进行面部标志点检测时,结合一些辅助任务可以更好的帮助定位面部关键点。因此,作者在文章中提出了一种新的网络"Task-Constrained Deep Convolutional Network (TCDCN)",将面部标志点检测与性别检测、眼镜穿戴检测、微笑检测、姿势检测四个辅助任务结合起来,使用辅助任务帮助面部标志点检测更快的收敛,达到更高的准确度。

创新点:(1)首次使用多任务学习(Multi-task Learning)结合CNN进行面部标志点检测;(2)提出了TCDCN的目标函数,使用共享特征向量策略,将主任务与辅助任务分别进行优化;(3)提出了"Task-wise Early stopping"策略。

 

二、TCDCN的工作原理

在这里,文章主要介绍了新设计的目标函数以及实现"Task-wise Early Stopping"的公式。

(一)目标函数

1.传统多任务学习的目标函数

传统的多任务学习(MTL)通过联合学习来提高多个相关任务的泛化性能。公式如下:

其中T代表任务数量,t代表当前任务,N代表当前任务中输入数据的数量。 

从函数来看,传统的MTL中,多个任务使用相同的损失函数,并分别使用各个任务中的特征向量进行学习,而非共享特征。

2.TCDCN的目标函数

作者基于传统的多任务学习的目标函数,为TCDCN设计了新的目标函数,新的目标函数如下:

在新的目标函数中,作者将主任务y_{i}^{r}(面部表示点检测)归类为一个回归任务,将辅助任务y_{i}^{a}(微笑检测、眼镜穿戴检测、头部姿势检测、性别检测)归类为分类任务。

作者分别为主任务和辅助任务使用了不同的损失函数 。首先,主任务采用的是平方差损失函数,辅助任务采用的是交叉熵损失函数。并根据各个辅助任务对于主任务的重要性分配了权重\lambda^{a}.

在新的目标函数中,作者将主任务和辅助任务区分开来,并采用了不同的损失函数。重要的是,新的目标函数在主任务和辅助任务进行特征的共享表示

(二)Task-wise Early Stopping

由于在多任务学习中,随着训练的进行,有些辅助任务在达到最佳性能后不再对主任务的训练有利,甚至在过多训练之后会出现过拟合现象,这个时候适时停止某个辅助任务就显得非常重要。

文中给出了"Task-wise Early Stopping"的公式(如下图所示)。

其中,k代表时间长度,t代表当前迭代,med表示计算中间值的函数。E_{tr}^{a} 和E_{val}^{a}分别表示训练集和验证集上的损失函数值。第一项代表了模型在训练集上的损失值的趋势,我的理解是就是在当前一段时间k中,如果每一个点都和中位数med^{t}_{j=t-k}E_{tr}^{a}(j)差的比较多且呈下降趋势,那么这个任务更值得继续训练,反之,就相对不值得继续训练;第二项是代表泛化误差与训练误差之比。

三、网络的实现与验证

(一)网络结构

文章中实现的网络结构如下图所示:

这个网络结构中,输入是40\times 40的灰度图像;特征提取部分是使用的深度卷积网络,包含4个卷积层,除最后一个卷积层外,其余卷积层后都跟有一个最大池化层,在最后链接了一个全连接层;随后是使用共享特征进行多任务估计,对Landmark detection任务进行线性回归,其余related task进行逻辑回归。

(二)实验评估

文中的实验评估主要分为4个部分:

  1. 评估相关任务学习的有效性(Evaluating the Effectiveness of Learning with Related Task)
  2. 任务式的提前停止的好处(The Benefits of Task-wise Early Stopping)
  3. 与级联CNN的比较(Comparison with the Cascaded CNN)
  4. 与其他最新方法的比较(Comparison with other State-of-the-art Methods)

文中提出的方法在四组验证中都取得了不错的效果,证明了TCDCN以及"Task-wise Early Stopping"策略的有效性,具体的数据集和实验步骤可以去论文中查看。

另外还提到了TCDCN在人脸及其属性识别中的应用,TCDCN可以应用在人脸属性识别预处理阶段人脸对齐步骤中。


总结:

  1. TCDCNMTLCNN相结合进行人脸表示点检测,在具有遮挡和较大姿势变化的情况下具有更好的鲁棒性;
  2. 提出的TCDCN允许将相关任务的错误在深层隐藏层中反向传播,以构建相关任务的共享表示;
  3. 提出了一种Task-wise early stopping策略,解决了各任务有着不同收敛速度而导致优化难的问题;
  4. 与级联CNN相比,TCDCN结构更简单,计算速度更快;
  5. TCDCN可以应用在人脸属性识别预处理阶段人脸对齐步骤中。
HRNet是一种用于面部关键检测的人工智能模型。面部关键面部的几个具有重要意义的特定,例如眼睛、鼻子、嘴巴等。HRNet采用高分辨率表示的思想,通过构建一个多分辨率的深度网络来提取不同层次的特征,从而提高了模型对细节的感知能力。 HRNet-Facial-Landmark-Detection是基于HRNet的面部关键检测模型。它通过先对输入图像进行预处理,将图像转换为HRNet网络能够处理的格式,然后通过多层次的卷积神经网络提取图像中的特征。这些特征包含了面部关键的信息,然后通过一个后续的全连接层将这些特征映射到最终的关键位置。 HRNet-Facial-Landmark-Detection具有准确度高、鲁棒性强的优。它可以在低光、遮挡等复杂环境下,准确地定位面部关键。因此,HRNet-Facial-Landmark-Detection人脸识别、表情识别、虚拟现实等领域具有广泛的应用前景。 需要注意的是,HRNet-Facial-Landmark-Detection的性能受到输入图像质量和数据集的限制。如果输入图像质量较差或数据集中没有涵盖模型需要的样本多样性,可能会降低模型的准确度。此外,模型的训练和测试过程需要耗费大量的计算资源和时间。 总之,HRNet-Facial-Landmark-Detection是一种高效、准确的面部关键检测模型,它可以在复杂环境下准确地定位人脸的关键位置。它的应用领域广泛,有助于改进人脸识别、表情识别和虚拟现实等技术。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值