微表情识别综述总结

原创

已于 2023-07-22 21:06:31 修改

· 3.4k 阅读

51 ·

版权

文章标签：

#计算机视觉 #深度学习

于 2023-07-22 21:03:43 首次发布

文章探讨了基于深度学习的微表情识别方法，包括预处理中的运动放大、时间归一化和数据增强等技术，以及人脸检测和对齐、ROI提取和数据集的演变。文章还讨论了不同网络结构如残差块、注意力模块和图网络，并介绍了多任务学习和迁移学习的应用。此外，提出了未来研究方向，如3D序列、AU分析、复合表情识别和多模态MER。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于深度学习的微表情识别综述总结（赵国英组）

Abstract

可以将面部表情分割为肌肉的各个部分的运动，这个被称为AUs即运动单位，AUs可以有效地解决个体表达的歧义问题，并且能够提高微表情识别的性能。

Dataset

2010年前后出现的数据库：Canal9、York-DDT、Polikvsky、USF-HD，这些数据集要求受试者模仿情绪，所以与微表情的自发性相矛盾。现阶段这些数据集已经不被使用。

后面出现的一些微表情数据集：SMIC、SMIC-e、CASME、CASMEII、CASME^2、SAMM等数据集，这些数据集都是在实验环境下测得的。数据集的具体信息在

图中进行展示：

数据集具体信息

A Taxonomy For MER Based on DL

本文对于MER的分类方法由基于DL的MER的组成部分来进行分类：预处理、网络输入、网络三部分。

Pre-process

微表情识别具有强度低、时间段、数据集规模小的问题，因此除了传统的预处理步骤外，仍需要进行运动放大、时间归一化和数据增强等操作，才能获得更好的识别精度。

Face detection and registration

现阶段各种基于深度学习的人脸检测方法已经被提出来克服人脸的变化，这些人脸检测器已经被开源到常用的开源库中，常见的有OpenCV和Dlib。另外，各种微小的姿势和运动都有可能对微表情的识别产生巨大的影响，因此，人脸对齐对微表情的识别将会产生非常重要的影响，它将检测到的人脸和参考人脸进行对齐，从而处理不同的微表情头部姿势。随着深度学习的应用，具有级联回归的网络成为性能最先进的人脸匹配方法。在微表情识别的片段中，由于头部运动很小，因此同一视频片段中的所有帧都使用相同的变换进行对齐，从而处理不同的头部姿势，以增强微表情识别的效果。

Motion magnification

微表情的面部的运动太过于细微，难以分辨，因此，为了便于识别微表情，使用运动放大对于增强微表情的强度至关重要。常见的运动放大方法有欧拉视频放大法**（EVM），其可以放大视频中连续两帧的运动或者彩色内容，但是对于较大的运动放大级别也会导致更大的放大规模从而造成更大的位移和运动伪影。因此可以在整个视频中一致地跟踪和放大表情和全局位移的全局拉格朗日运动放大（GLMM）**被应用。此外基于学习的运动放大被应用于微表情的放大。

Temporal normalization

微表情识别除了强度低外，还面临着持续时间短和多变的挑战，尤其是处理一些帧数相对较低的数据集时这个问题时尤为明显，因此为了解决这个问题，引入了Temporal interpolation model（TIM时间插值模型），基于帧间的路径图将所有的ME需要插值到相同的指定长度。

应用TIM来应用时间归一化的时候，有如下优势：

对于帧数较少的片段进行上采样：从而在保证数据连续性的同时增加帧数到所需要的长度
通过处理统一长度的视频片段来获取更稳定的特征：在模型处理视频的时候，有些模型对不同长度的视频片段可能会敏感，因此通过将视频统一到相同的视频长度可以获得更稳定、一致的特征表示，从而增加模型的性能，提升模型的鲁棒性
可以将视频片段扩展为长序列，并进行子采样以进行数据增强：在实际研究过程中，可能会遇到微表情的片段，需要将这些片段扩展为较长的序列，可以在这些片段中插入一些帧来增加其时间跨度，之后对这些扩展的片段进行子采样得到不同的片段，作为一种数据增强的策略