©PaperWeekly 原创 · 作者|孙裕道
学校|北京邮电大学博士生
研究方向|GAN图像生成、情绪对抗样本生成
引言
区域学习(RL)和多标记学习(ML)在人脸动作单元(AU)检测领域受到越来越多的关注。由于 AUs 在面部稀疏区域是活跃的,RL 旨在识别这些区域以获得更好的特异性。另一方面,一个关于 AU 相关性的强有力的统计证据表明 ML 是一种自然的方法来模拟探测任务。
FACS介绍
FACS (Facial Action Coding System) 即面部行为编码系统,它特指一组面部肌肉运动状态。本文整理的是第一次出版于 1978 年的 FACS,在2002 年 FACS 又进行了一些实质性的更新。通过使用面部行为编码系统可以对情绪进行分析。本文详细的整理了面部行为编码对应的编号,主要可以分为三大类主要运动单元编码,头部运动单元编码和眼睛运动单元编码,如下图([FC])和([HE])所示。
▲ 图1.主要运动单元编码
▲ 图2.头部和眼睛运动单元编码
根据上面的面部运动编码编码可以得出相应的情绪计算公式,具体计算公式如下所示:
▲ 图3.情绪计算公式
如下图两个例子展示了不同的表情相应的 AU 单元的标注,分别是奥巴马开心的表情和詹姆斯伤心的表情。
▲ 图4.AU单元示例图
为了能够更加清楚情绪与 AU 单元的对应关系,下面两幅图列出了人类的七中基本情绪与不同 AU 单元的对应关系。
▲ 图5.情绪与AU单元的对应情况
▲ 图6.情绪与AU单元的对应情况
为了能够更加清楚 AU 单元之间的对应关系,下图列出了不同 AU 单元之间的对应关系。
▲ 图7.AU单元之间的对应情况
需要注意的一点是,对于一种情绪对应着多个 AU 单元,AU 单元分类器是一个多标签的分类器,多标签分类器不同于多分类,如下图所示为一个多标签分类器。Scikit-learn 提供了一个独立的库用于多种标签分类,Scikit-multilearn 库网址为:
http://scikit.ml/api/datasets.html
▲图8.多标签分类器
FACS的多标签探测
论文链接:https://openaccess.thecvf.com/content_cvpr_2016/papers/Zhao_Deep_Region_and_CVPR_2016_paper.pdf
论文时间:
CVPR 2016
3.1 论文贡献
在该论文中作者提出一种了在 AU 领域中深度区域和多标签学习(DRML)的方法。DRML 的一个关键方面是一个新颖的区域层,它使用前馈功能来诱导重要的面部区域,能够学习到的权重来捕捉面部的结构信息。完整的网络是端到端可训练的,并自动学习表示,鲁棒的内在变化的局部区域,最终的网络是端到端的可训练的,并且比替代模型更快地收敛与更好地学习 AU 关系。
如上图所示显示了该论文的主要思想,图(a)中是传统的基于补丁的方法,图(b)是该论文中提出的 DRML 方法,DRML 通过构建人脸重要区域和多个 AUs 之间的关系模型,表现出较好的定位和分类能力。
3.2 模型介绍
下图显示了该论文的 DRML 架构。从左到右依次是对对齐的人脸图像进行标准卷积层滤波,然后是区域层、一个池化层和四个卷积层,三个全连通层,最后是一个多标签交叉熵损失层。颜色说明在每一层产生的 feature map。由于 AUs 的面部外观变化是区域性的和微妙的,所以确保每一层都保留来自前一层的足够的面部信息。
设 AU 个数为 ,样本个数为 ,真实的标签为 , 表示的是 中的 个元素,预测标签为 。输入层的多目标的 sigmoid 的交叉熵函数:
其中 是一个指示函数。该论文中的训练的模型有大约 5600 万个参数,比AlexNet(6000 万个)少 7%,比 DeepFace 少 53%。
下图所示,论文中提出的区域层包含三个部分:patch 裁剪、局部卷积和身份添加。patch 裁剪模块均匀地将一个 160×160 特征图切片成一个 8×8 的网格。局部卷积模块学习捕捉局部外观变化,学习到的每个 patch 中的权值独立更新。身份添加模块在训练网络的过程中有助于避免消失梯度问题。
如下图所示为 10 个常见 AU 的学习到的显著性 patch 示意图,作者对 DRML 与标准的 ConvNet 进行了比较。所有网络在 BP4D 数据集上进行训练,并使用多标签 sigmoid 交叉熵损失。可以直观的发现,DRML 对相应的 AU 学习了更具体、更集中的区域。
3.3 实验介绍
3.3.1 实验数据集
作者在两个数据集 BP4D 和 DISFA 上评估了 DRML 模型。BP4D 包含 41 名青年在与实验人员互动过程中各种情绪的 2D 和 3D