基于深度学习的微表情识别综述总结(赵国英组)
Abstract
可以将面部表情分割为肌肉的各个部分的运动,这个被称为AUs即运动单位,AUs可以有效地解决个体表达的歧义问题,并且能够提高微表情识别的性能。
Dataset
2010年前后出现的数据库:Canal9、York-DDT、Polikvsky、USF-HD,这些数据集要求受试者模仿情绪,所以与微表情的自发性相矛盾。现阶段这些数据集已经不被使用。
后面出现的一些微表情数据集:SMIC、SMIC-e、CASME、CASMEII、CASME^2、SAMM等数据集,这些数据集都是在实验环境下测得的。数据集的具体信息在
图中进行展示:
A Taxonomy For MER Based on DL
本文对于MER的分类方法由基于DL的MER的组成部分来进行分类:预处理、网络输入、网络三部分。
Pre-process
微表情识别具有强度低、时间段、数据集规模小的问题,因此除了传统的预处理步骤外,仍需要进行运动放大、时间归一化和数据增强等操作,才能获得更好的识别精度。
Face detection and registration
现阶段各种基于深度学习的人脸检测方法已经被提出来克服人脸的变化,这些人脸检测器已经被开源到常用的开源库中,常见的有OpenCV和Dlib。另外,各种微小的姿势和运动都有可能对微表情的识别产生巨大的影响,因此,人脸对齐对微表情的识别将会产生非常重要的影响,它将检测到的人脸和参考人脸进行对齐,从而处理不同的微表情头部姿势。随着深度学习的应用,具有级联回归的网络成为性能最先进的人脸匹配方法。在微表情识别的片段中,由于头部运动很小,因此同一视频片段中的所有帧都使用相同的变换进行对齐,从而处理不同的头部姿势,以增强微表情识别的效果。
Motion magnification
微表情的面部的运动太过于细微,难以分辨,因此,为了便于识别微表情,使用运动放大对于增强微表情的强度至关重要。常见的运动放大方法有欧拉视频放大法**(EVM),其可以放大视频中连续两帧的运动或者彩色内容,但是对于较大的运动放大级别也会导致更大的放大规模从而造成更大的位移和运动伪影。因此可以在整个视频中一致地跟踪和放大表情和全局位移的全局拉格朗日运动放大(GLMM)**被应用。此外基于学习的运动放大被应用于微表情的放大。
Temporal normalization
微表情识别除了强度低外,还面临着持续时间短和多变的挑战,尤其是处理一些帧数相对较低的数据集时这个问题时尤为明显,因此为了解决这个问题,引入了Temporal interpolation model(TIM时间插值模型),基于帧间的路径图将所有的ME需要插值到相同的指定长度。
应用TIM来应用时间归一化的时候,有如下优势:
- 对于帧数较少的片段进行上采样:从而在保证数据连续性的同时增加帧数到所需要的长度
- 通过处理统一长度的视频片段来获取更稳定的特征:在模型处理视频的时候,有些模型对不同长度的视频片段可能会敏感,因此通过将视频统一到相同的视频长度可以获得更稳定、一致的特征表示,从而增加模型的性能,提升模型的鲁棒性
- 可以将视频片段扩展为长序列,并进行子采样以进行数据增强:在实际研究过程中,可能会遇到微表情的片段,需要将这些片段扩展为较长的序列,可以在这些片段中插入一些帧来增加其时间跨度,之后对这些扩展的片段进行子采样得到不同的片段,作为一种数据增强的策略
Regions of interest
可以通过提取ROI上的一些特征来减少没有用的信息的区域对识别精度的影响,主要有如下几种方式来提取面部的ROI:
- 手工制作的基于特征的方法,将人脸分割为几个相等的块,从而更好地描述局部变化
- 为了消除眨眼和静止区域引起的噪声,可以对每幅图像的眼睛和脸颊区域进行遮盖,但是由于眼睛的运动也会对MER有一定贡献,因此也会造成一些负面影响
- 在分析了ME数据集的差异热图后,发现眼睛、鼻子和嘴巴区域的微表情最为活跃,因此在工作中可以只考虑眼睛和嘴巴的区域,并选择这些区域作为ROI
- 另外,可以使用人脸关键点定位的小面部块来提取特征,这样学习空间的维度可以大幅度降低,有助于模型在小型的数据集上进行学习和训练
但是,以上几种方式都是基于同一个假设,即所有的ROI块对于MER的贡献都是相等的,然而,在实际的操作中可能每一块ROI对于MER的贡献均不相同,因此也可以设计一个模型来自动学习对模型贡献最多的区域,从而提高模型的效果。
Data augmentation
MER的挑战主要还包括现阶段并没有一个大型的ME数据集来训练一个鲁棒的模型