摘要
面部动作单元(AU)检测和面部对齐是两个高度相关的任务,因为面部地标可以提供精确的AU位置,以便于提取用于AU检测的有意义的局部特征。然而,大多数现有的AU检测工作通过将人脸对齐作为预处理来独立地处理这两个任务,并且经常使用界标来预先定义每个AU的固定区域或注意力。特别是,首先学习多尺度共享特征,并将人脸对齐的高级特征输入到AU检测中。此外,为了提取精确的局部特征,我们提出了一个自适应注意力学习模块来自适应地细化每个AU的注意力图。最后,将组合的局部特征与人脸对齐特征和全局特征相结合,用于AU检测。广泛的实验表明,我们的框架(i)在具有挑战性的BP4D、DISFA、GFT和BP4D+基准上显著优于最先进的AU检测方法,(ii)可以自适应地捕捉每个AU的不规则区域,(iii)在面部对齐方面实现了竞争性的性能,并且(iv)在部分遮挡和非正面姿态下也很好地工作。我们方法的代码可在https://github.com/ZhiwenShao/PyTorch-JAANet
引言
面部动作单元(AU)检测和面部对齐是计算机视觉和情感计算领域的两个重要的面部分析任务(Corneranu等人,2016;Martinez等人2019)。在大多数与面部相关的任务中,面部对齐(Kazemi和Sullivan 2014;Zhang等人2016b;Shao等人2020)通常用于定位某些独特的面部位置,即地标,以定义面部形状或表情外观。面部AU是指由面部动作编码系统(FACS)(Ekman和Friesen 1978;Ekman等人2002)定义的特定面部位置的一组独特的基本面部动作,这是描述面部表情的最全面和客观的系统之一。考虑到AU检测和人脸对齐彼此相关,如果将它们放在一个联合框架中,它们应该对彼此有利。然而,在文献中,很少看到这两项任务的联合研究。
在一些先前的AU检测研究中(Gudi等人,2015;Zhao等人,2016b;Chu等人,2017),面部标志仅用于将人脸对齐到共同的参考人脸中,以便从每个人脸提取的特征对应于相同的语义位置。由于地标也可以提供精确的AU位置,最近的工作更加关注从以相关地标为中心的感兴趣区域(ROI)中提取AU相关特征。例如,Li等人。
(2018),Li等人(2017a)提出了基于深度学习的一种名为EAC Net的方法,通过增强和裁剪具有地标信息的ROI来进行AU检测。然而,他们只是将人脸对齐作为预处理。Wu和Ji(2016)试图利用级联回归框架同时利用人脸对齐和AU检测,这是两项任务联合研究的开创性工作。然而,这种级联回归方法仅使用手工制作的特征,而不是基于流行的深度学习技术,这限制了其性能。
除了EAC Net(Li等人,2018)以固定的大小和固定的注意力分布预先定义每个AU的ROI之外,一些作品也采用了注意力机制。
Sanchez等人(2018)使用预定义的高斯分布为每个AU生成关注图,其中高斯分布的幅度和大小由AU强度决定。然而,这些方法不能适应具有不规则形状和变换的各种AU。最近,Shao等人(2019)在没有先验地标知识的情况下直接学习了AU的空间注意力。
虽然这项工作可以找到不规则的非盟区域,但也捕获了一些不相关的区域。
为了解决上述局限性,我们提出了一种基于深度学习的联合AU检测和人脸对齐框架,以利用这两个任务的强相关性。特别是,首先学习两个任务共享的多尺度特征,提取人脸对齐的高级特征并将其输入AU检测。此外,为了提取精确的局部特征,我们提出了一个自适应注意力学习模块来自适应地细化每个AU的注意力图,该注意力图最初由预测的面部标志指定。
最后,将组合的局部特征与人脸对齐特征和全局特征相结合,用于AU检测。在自适应注意力学习模块中,每个AU都有一个独立的分支,以在其本地AU检测丢失的监督下细化其注意力图。此外,面部对齐特征和全局特征补充了在组装的局部特征之上的其他有用信息。整个框架是端到端的,没有任何后处理操作,所有模块都是联合优化的。
本文的贡献有三个方面:
–我们提出了用于联合面部AU检测和面部对齐的端到端多任务深度学习框架。据我们所知,用深度神经网络对这两项任务进行联合建模以前还没有做过。
–借助面部对齐结果,学习自适应注意力网络,以确定每个AU ROI的注意力分布。
–我们在基准上进行了广泛的实验,其中我们提出的联合框架显著优于最先进的AU检测方法,可以自适应地捕捉每个AU的不规则区域,在面部对齐方面实现了竞争性性能,并且在部分遮挡和非正面姿态下也能很好地工作。
与早期会议版本相比(Shao等人。
2018年),我们在Sect。3.5以概括反向传播增强的原始思想。具体地,我们表明,局部AU检测损失是监督注意力图细化以提取更精确的局部特征的更有效的方法。我们还消除了细化前后注意力图差异的约束,这减少了预定义注意力图的限制,从而有利于注意力的自适应学习。通过这些改进,我们的框架变得更加通用,并实现了更好的AU检测性能。除了方法上的变化,该扩展还补充了挑战性GFT的比较(Girard等人。
2017)和BP4D+(Zhang等人,2016a)基准,以及部分闭塞和非正面姿势下的结果。我们将我们的框架命名为JAA-Net,因为联合学习和自适应注意,其中“A”对应于“自适应”,考虑到我们在早期会议版本中改进了JAA-Net的自适应注意学习(Shao et al.2018)。
相关工作
我们提出的框架与现有的地标辅助面部AU检测方法以及面部AU联合检测和面部对齐方法密切相关,因为我们结合了AU检测模型和面部对齐模型。
2.1地标辅助面部AU检测
先前大多数面部AU识别工作中的预处理步骤是借助面部检测和面部对齐方法来检测和对齐面部(Martinez等人,2019)。Benitez Quiroz等人认为,测量基于地标的几何变化是稳健的。
(2016)提出了一种融合几何和局部纹理信息用于AU检测的方法,其中通过测量归一化的面部标志距离和由标志形成的Delaunay掩模的角度来获得几何信息。Valstar和Pantic(2006)分析了20个面部标志附近的Gabor小波特征,然后通过Adaboost和SVM分类器对这些特征进行选择和分类,用于AU检测。Zhao et al.(2015),Zhao等人(2016a)提出了一种联合补丁和多标签学习(JPML)方法用于面部AU检测,该方法同时考虑了补丁学习和多标记学习,其中AU的局部区域被定义为以使用IntraFace(De la Torre等人,2015)。最近,Li等人(2018)和Li等人(2017a)通过增强和裁剪每个AU的预定义ROI,提出了用于面部AU检测的EAC网络。所有具有由地标指定的中心位置的ROI都具有固定的大小和固定的注意力分布。
所有这些研究都证明了利用面部标志进行AU检测任务的特征提取的有效性。然而,他们都将面部对齐视为一项独立的任务,并利用现有设计良好的面部标志检测器。
2.2联合面部AU检测和面部对齐作为一项属于面部表情识别的任务,面部AU的检测与面部对齐具有很强的相关性。
可以利用这两个任务之间的相关性来相互帮助。
一方面,在多个人脸对齐工作中利用了相关性。例如,Wu等人(2017)使用级联回归框架组合了面部对齐、头部姿势估计和表情相关面部变形分析的任务。Zhang等人(2014b),Zhang等人。(2016b)提出了一个任务约束深度卷积网络(TCDCN),以优化面部对齐和其他异质但微妙相关的任务之间共享的特征图,例如头部姿态估计和面部属性(包括表情)的推断。Ranjan等人(2019)提出了一个名为HyperFace的深度多任务学习框架,用于同时进行人脸检测、人脸对齐、姿势估计和性别识别。所有这些工作都表明,面部表情识别等相关任务有利于面部对齐。然而,在TCDCN和HyperFace中,面部对齐和其他任务只是与共享的前几层简单集成。
相比之下,除了共享特征层之外,我们提出的JAA-Net还将面部对齐的高级表示馈送到AU检测中,并利用估计的界标来初始化自适应注意力学习。
另一方面,相关性也有助于面部AU检测。然而,在上述方法中,两个任务的交互通常是一种方式,即使用面部标志来提取用于AU检测的特征。Li等人(2013)提出了一个具有动态贝叶斯网络的分层框架,以捕捉面部地标跟踪和面部AU识别之间的联合局部关系,而不是单独处理面部对齐。然而,该框架需要离线面部活动模型构建和在线面部运动测量和推断,并且只考虑面部地标和AU之间的局部相关性。受Li等人(2013年)的启发,Wu和Ji(2016年)试图通过级联来利用全局AU关系、全局面部形状模式以及AU和地标之间的全局依赖性,这是两项任务联合进程的开创性工作。与这些使用手工制作的局部外观特征的传统方法相比,我们使用端到端的深度框架来联合学习面部AU检测和面部对齐。此外,我们开发了一种深度自适应注意力学习方法,以探索由预测的面部标志指定的不同ROI中不同AU的特征分布。

3 JAA Net用于面部AU检测和人脸对齐
3.1概述
我们提出的JAA Net的架构如图所示,其中采用大小为l×l×3的彩色人脸作为输入。它由四个不同颜色的模块组成:分层和多尺度区域学习、人脸对齐、全局特征学习和自适应注意力学习。首先,将分层和多尺度区域学习设计为JAA-Net的基础,JAA-Net从不同大小的局部区域中提取多尺度特征。其次,设计了人脸对齐模块来估计面部地标的位置,并将其进一步用于预先定义每个AU的初始注意力图。全局特征学习是捕获整个人脸的结构和纹理信息。最后,将自适应注意力学习(红色)设计为多分支网络AU检测的中心部分,该网络自适应地细化每个AU的注意力图,以捕获不同位置的局部AU特征。然后,将组装的局部AU特征与面部对准特征和全局特征集成,以进行最终AU检测。人脸对齐、全局特征学习和自适应注意力学习这三个模块被联合优化,它们共享分层和多尺度区域学习的层。
有代码重点,可以先去跑跑看。
2701

被折叠的 条评论
为什么被折叠?



