《Facial Landmark Detection by Deep Multi-task Learning》论文解读
这篇文章发表于ECCV2014,来自香港中文大学汤晓鸥课题组。论文原文见:
概述
文章提出了人脸特征点检测的新方法,使用与人脸相关的属性共同学习人脸的特征点位置。
we wish to optimize facial landmark detection together with heterogeneous but subtly correlated tasks, e.g.head pose estimation and facial attribute inference.
具体而言,就是在人脸特征点检测的时候,同时进行多个任务的学习,这些任务包括:性别,是否带眼镜,是否微笑和脸部的姿势。使用这些辅助的属性帮助更好的定位特征点,根据论文结果,这样的确对人脸特征点检测有一定的帮助。这种Multi-task learning的困难在于:不同的任务有不同的特点,不同的收敛速度。针对这两个问题,文章给出前者的解决办法是tasks-constrained deep model
,对后者解决办法是task-wise early stopping
。文章中的方法在处理有遮挡和姿势变化时表现较好,而且模型比较简单。
如图,人脸特征点检测这一任务可以和多个辅助任务同时进行,对比前人的CNN和Cascaded CNN,本文具有更好的表现。
论文解读
tasks-constrained deep model
传统的多任务学习(multi-task learning)把每个任务都赋予相同的权重
损失函数就是不同任务的损失函数直接相加。而在人脸特征点检测的任务中,不同的任务具有不同的loss,特征点检测是平方和误差,而其它分类任务是交叉熵误差,因此最后的loss就是: