目标:减小人类和机器对于表情的感知差异
方法:提出一种引导注意力机制,以方便网络获取面部重要特征。从AU中学习注意力映射。
使用数据集: BP4D, MMSE and DISFA
结构:
如图1,使用4个密集块组成的Densenet,第二块的输出连接到掩蔽网络,该网络为给定的样本学习适当的AU引导掩码。学习到的掩码进一步添加到块2的输出,以注意力加强的特征表示。
使用Densenet进行特征提取:
Densenet属于使用剩余连接的一类网络。具体来说,就是densenet每一层都连接到同一块内的后续层。如果F_n表示在第n层应用的非线性函数集,则该层的输出x_n为:x_n=f_n([x_1,x_2,…,x_n-1])
该文中对Densenet-121结构进行改动。传统的Densenet由一系列密集块组成,每个块的末尾有一个最大池层来对特征进行下采样。最后,在四个密集块的末尾,构造了一个全局池层和分类层。
面部动作的一个关键特征是其间的内部AU相关性。AU很少单独发生,通常与其他AU同时发生。这种相关性使用完全连接的网络进行有效的建模。该文再最终分类层前添加一个带有1024个神经元的全连接层。
AU引导的空间注意力映射
一个注意力网络对图像/特征映射中每个与任务相关的点增加权重。
AU引导注意力:理想情况下,关注模型仅关注与特定AU最相关的区域。利用先验知识(不同AU影响的特定位置)来构造注意力稀疏网络。
将不同AU表示为面部关键点运动的集合。如下表:
使用像素平均方差损失:
端到端注意力学习:
掩码网络用于学习给定的一组输入特征的适当注意映射。该掩码不是强制注意力掩码,而是整合到中间层。第二个密集块在池层后的输出作为掩码网络的输出。网络中越接近输入层越倾向于检测基本轮廓和部分,越靠近分类层越倾向于AU预测。中间层如块2,在Densenet中捕获基于形状和外观的特征。由于引导注意掩码在很大程度上取决于图像中存在的AU,因此使用中间特征作为输入来学习注意掩码是合乎逻辑的。
实验结果: