©PaperWeekly 原创 · 作者|Chen Ma
学校|清华大学
研究方向|人脸识别和物体检测
这篇论文率先利用先验知识和物体检测技术做 Action Unit 人脸表情识别,在 BP4D 和 DISFA 两个数据库达到了 SOTA 的实验结果:BP4D 数据库的 F1 score 63%。
论文标题:AU R-CNN: Encoding Expert Prior Knowledge into R-CNN for action unit detection
论文链接:https://arxiv.org/abs/1812.05788
代码链接:https://github.com/sharpstill/AU_R-CNN
介绍
FACS (Facial Action Coding System) 是人脸国际标准组织定义的 44 种人脸运动单元(AU),这些运动单元可以组合表示人脸表情所有可能的表情(包含皱眉,抿嘴等),AU 是组成人脸表情的基石。
本论文中所谓的人脸 AU 检测的任务是指:识别一段视频中每一帧图像的人脸上出现哪些 AU。因为 AU 只是面部肌肉的细微运动,而且不同的面部肌肉运动幅度大小不同,所以 AU 检测任务具有挑战性。AU 检测在测谎仪、汽车驾驶辅助系统(探测是否驾驶员瞌睡)等有重要应用。
▲ 图1. Action Unit 的例子
图 1 是 Action Unit的例子,关于 Action Unit 的表情到底定义了怎样的细微的面部表情。以下链接提供了动画演示,读者可以自行观看。
https://imotions.com/blog/facial-action-coding-system/
总结一下已有方法的缺点:
1. 已有的方法虽然提出了 AU center 的概念作为 AU 发生的重要区域,并被定义为人脸关键点的附近,这种定义粗糙而位置不精确。AU 发生在人脸肌肉运动的特定区域,但不一定是某个 landmark 附近。
2. 已有的研究使用 CNN 去识别整张脸的图像,而非局部区域的 AU。
3. 人脸 AU 识别是一个多 label 的分类问题&