Deep Facial Expression Recognition: A Survey

Shan Li and Weihong Deng ∗ , Member, IEEE

虽然人脸检测是实现特征学习的唯一必要步骤,但进一步利用局部地标的坐标对人脸进行比对可以显著提高识别性能。这一步是至关重要的,因为它可以减少面部尺度和平面内旋转的变化。表2研究了深度FER中广泛使用的人脸关键点检测算法,并对其效率和性能进行了比较。
在这里插入图片描述
主动外观模型(AAM)[53]是一个经典的生成模型,它从整体的面部外观和整体的形状模式来优化所需的参数。在判别模型中,混合树(MoT)结构模型[56]和判别响应图拟合(DRMF)[59]使用基于部分的方法,通过每个地标周围的局部外观信息来表示人脸。此外,许多判别模型直接使用级联回归函数将图像外观映射到关键点位置,取得了较好的效果,如IntraFace[73]中实现的监督下降法(supervised descent method, SDM)[62]、人脸对齐3000 fps[64]、人脸增量对齐[65]。近年来,深度网络被广泛应用于人脸对齐。级联CNN[67]是早期以级联方式预测关键点的工作。基于此,任务受限的深卷积网络(TCDCN)[74]和多任务CNN (MTCNN)[69]进一步利用多任务学习来提高性能。一般来说,级联回归由于其速度快、精度高,已成为目前最流行和最先进的人脸对齐方法。
相对于只使用一个检测器进行人脸对齐,一些方法提出将多个检测器组合起来,以便在具有挑战性的无约束环境中处理人脸时更好地进行关键点估计。Yu等人[75]将三种不同的面部关键点检测器串联起来,相互补充。Kim等[76]考虑了不同的输入(原始图像和直方图均衡化图像)以及不同的人脸检测模型(V&J[72]和MoT[56]),选取了Intraface提供的置信度最高的关键点集[73]。

3.1.2数据增加
深度神经网络需要足够的训练数据来保证给定识别任务的通用性。然而,大多数面向FER的公开数据库并没有足够数量的图像用于培训。因此,数据扩充是实现深度FER的重要步骤。数据增强技术可以分为两类:实时数据增强和离线数据增强。

通常,实时数据增强被嵌入到深度学习工具包中,以减轻过度拟合。在训练过程中,从图像的四个角和中心随机裁剪输入样本,然后水平翻转,得到的数据集比原始训练数据集大十倍。试验中采用两种常见的预测模式:只使用人脸的中心patch进行预测(如[61],[77]),或者对全部10个裁剪的样本的预测值取平均值

除了基本的实时数据扩充外,还设计了各种离线数据扩充操作,以进一步扩充数据的大小和多样性。最常用的操作包括随机扰动和变换,如旋转、移位、倾斜、缩放、噪声、对比度和颜色抖动。例如,常用的噪声模型salt &使用pepper和speckle噪声[79]和高斯噪声[80]、[81]来放大数据大小。对于对比度变换,改变每个像素的饱和度和值(HSV颜色空间的S和V分量)进行数据增强[70]。

多个操作的组合可以生成更多不可见的训练样本,使网络对偏离和旋转的人脸具有更强的鲁棒性。在[82]中,作者应用了5个图像外观滤波器(disk、average、Gaussian、unsharp和motion filters)和6个仿射变换矩阵,通过在单位矩阵上添加少量几何变换来形式化。在[75]中,提出了一种更全面的仿射变换矩阵,随机生成旋转、倾斜和尺度不同的图像。此外,基于深度学习的技术可以应用于数据扩充。例如,在[83]中创建了一个三维卷积神经网络(CNN)合成数据生成系统,用于机密地创建表情饱和度不同的人脸。而生成式对抗网络(GAN)[84]也可以通过生成不同姿态和表情的不同表象来增加数据。

3.1.3 Face normalization
光照和头部姿态的变化会引起图像的巨大变化,从而影响FER的性能。因此,我们引入了两种典型的人脸归一化方法来改善这些变化:光照归一化和姿态归一化(正面化)。光照归一化:在不同的图像中,即使同一个人具有相同的表情,光照和对比度也会发生变化,特别是在无约束的环境中,这可能会导致较大的类内方差。在[60]中,我们评估了几种常用的光照归一化算法,即基于各向同性扩散(IS)的归一化、基于离散余弦变换(DCT)的归一化[85]和基于高斯差(DoG)的归一化。[86]采用基于同态滤波的归一化去除光照归一化,据报道,在所有其他技术中,基于同态滤波的归一化效果最为一致。此外,相关研究表明,直方图均衡化和光照归一化相结合的人脸识别性能优于单独使用光照归一化的人脸识别性能。而deep FER文献中的许多研究(如[75],[79],[87],[88])都采用直方图均衡化来增强图像的全局对比度进行预处理。

当背景和前景的亮度相似时,该方法是有效的。然而,直接应用直方图均衡化可能会过分强调局部对比度。为了解决这个问题,[89]提出了一种将直方图均衡化与线性映射相结合的加权求和方法。在[79]中,作者比较了三种不同的方法:全局对比度归一化(GCN)、局部归一化和直方图均衡化。报告了GCN和直方图均衡化分别在训练和测试步骤上达到了最佳的准确性。
位姿归一化:在无约束条件下,位姿变化较大是另一个常见而棘手的问题。一些研究已经使用位姿归一化技术来生成FER的正面人脸视图(如[90],[91]),其中最受欢迎的是Hassner等人提出的[92]。具体来说,在对人脸关键点进行定位后,生成一个适用于所有人脸的三维纹理参考模型来有效地估计可见的人脸成分。然后,将每个输入的人脸图像反向投影到参考坐标系中,合成初始人脸。另外,Sagonas等人[93]提出了一种有效的统计模型,可以同时定位关键点和只使用正面人脸转换面部姿态。最近,一系列基于gan的深度模型被提出用于正面视图合成(如FF-GAN[94]、TP-GAN[95]和DR-GAN[96]),并报告了很有前景的性能

3.2 Deep networks for feature learning
深度学习最近成为一个热门的研究课题,并在各种应用中取得了最先进的性能[97]。深度学习试图通过多重非线性转换和表示的层次结构捕获高级抽象。在本节中,我们简要介绍了一些应用于FER的深度学习技术。这些深度神经网络的传统结构如图2所示。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值