深度人脸表情识别研究进展

最新推荐文章于 2024-11-30 17:14:41 发布

我爱计算机视觉

最新推荐文章于 2024-11-30 17:14:41 发布

阅读量7.2k

点赞数 4

文章标签：模式识别计算机视觉机器学习人工智能深度学习

近年来，随着人工智能与人机交互技术的发展，人脸检测、对齐、识别技术的不断跟进，自动人脸表情识别由于其潜在的社交媒体分析和情感计算能力而成为了计算机视觉领域的热点研究话题，并在众多商业场景中有着巨大的应用前景。

图片来自网络

推荐《中国图象图形学报》2020年第11期“基于视觉的情感感知技术与应用”专刊论文《深度人脸表情识别研究进展》。论文由《中国图象图形学报》编委，北京邮电大学模式识别实验室邓伟洪教授团队撰写，对近十年来深度人脸表情识别方法的研究现状以及相关人脸表情数据库的发展进行了归纳概括，对该领域的未来研究方向和机遇挑战进行了总结和展望。

论文信息

论文标题：深度人脸表情识别研究进展

作者：李珊，邓伟洪

第一作者单位：北京邮电大学人工智能学院

引用格式：

Li S, Deng W H . 2020. Deep facial expression recognition: a survey. Journal of Image and Graphics,25(11): 2306-2320.(李珊, 邓伟洪. 2020. 深度人脸表情识别研究进展. 中国图象图形学报, 25(11): 2306-2320.) [DOI: 10.11834/jig.200233]

论文链接：

http://www.cjig.cn/html/jig/2020/11/20201102.htm

论文看点

图片来自网络

1）论文介绍了人脸表情识别的相关背景知识，并对表情识别领域数据库和算法的演化和发展进行了概述。根据处理数据对象不同，论文将现有深度人脸表情识别技术分为两大类，并分别对这两类方法中新颖的人脸表情识别技术以及相关网络训练技巧进行了归纳概括和介绍。

2）基于目前常见人脸表情数据库，论文进一步对代表性深度表情识别方法在不同数据集上的性能进行了比较，并详细统计了不同方法所对应的网络框架和具体表情识别结果。除此之外，论文还对不同类型的网络框架技术从模型计算量、识别精确度、存储空间、计算效率等方面进行了优缺点的比较。

3）论文指出了目前自动人脸表情识别领域仍需攻克的难点问题和现有方法所存在的局限性，根据相关技术和笔者经验梳理提供了一些可行的解决方案，并进一步指出了人脸表情识别领域的未来研究方向。

基于深度学习的人脸表情

识别技术

根据所处理数据的不同，基于深度学习的人脸表情识别技术主要可以分为两大类：基于静态图像的人脸表情识别网络和基于动态序列的人脸表情识别网络。

1）对于静态人脸表情识别网络，其中多网络融合模型在特征层次或者决策层次融合了不同子网络的优点。然而，设计不同类型用于互补的子网络也大大增加了模型计算量和储存空间。此外，不同子网络权重参数的多度优化易导致模型在测试集上的过拟合。

多任务网络则在训练表情识别任务的同时也考虑了其他与表情相关联的任务，例如面部特征点定位，面部肌肉单元检测和人脸识别，从而排除了与表情无关因素的干扰。该方法的主要局限在于其要求更多与其他任务相关的标签参与训练，并使得训练量更大。级联网络则通过将不同子网络串联在一起逐步加强了模型的判别能力。

该方法能够有效避免过拟合问题并排除与表情无关因素的干扰。此外，生成对抗网络因其可生成高质量目标样本的优点也逐渐被用于表情识别领域中进行姿态不变的表情识别或者增加训练样本的数量和多样性。

图片来自网络

2）对于动态人脸表情识别网络，其中RNN及其扩展LSTM作为基础时序网络结构被广泛运用于视频序列的学习。然而固有网络结构使其难以捕捉到有效的图像卷积特征。而三维卷积网络则能更好地学习出图像特征，但其中的三维滤波结构往往只覆盖了短时间内的序列而忽略了长范围内的动态变化。

人脸关键点轨迹则是依据人脸生理结构捕捉人脸形状特征在时间序列内的动态变化。该方法计算量小而且不受光照等无关因素的干扰。但是其对面部特征点定位的精确度要求较高。

级联网络则是首先提取有表情判别能力的空间特征然后将该信息依次输入到时序网络中进行时序信息的编码。而多网络融合则是同时训练两个子网络分别用于捕捉时序信息和空间信息，然后将其输出结果进行加权融合。

挑战与展望

1）真实世界人脸表情数据标注不足问题

在数量和质量上均较为匮乏的数据库是当今深度人脸表情识别系统面临的主要挑战。由于不同年龄段、不同种族和不同性别的人表达和解析面部表情的方式也不同，一个理想的表情数据集应该包含除了表情标签之外，各种丰富且精确的其他面部属性标签，例如年龄、性别和种族。

然而对大量携带复杂自然场景变化的数据进行精确的标注的难度很大。对此一个可靠的解决方式是在专家的指导下对数据进行多人的众包标注。

2）数据集的偏差和不平衡分布问题

由于收集条件的不同和标注的主观性，数据偏差和不一致的标注问题在不同人脸表情数据库中也十分常见。通过在数据库内进行评估的算法往往缺乏对未知测试数据的普适性，其性能将会在跨库实验中明显恶化。深度领域自适应和知识蒸馏则是解决这一偏差问题的有效方法。

此外表情数据还存在类别不平衡问题，在一定的表情模型下，小样本和不平衡分类问题在表情识别任务中长期存在，如何引入相应新技术将是该领域未来重点研究方向。

3）多类表情模型协同工作

面部肌肉可以组合出上千种动作，基本表情只涵盖了小部分动作类别。其他表情模型则可以涵盖更大范围的表情类型，如面部动作单元编码模型中不同面部肌肉相互结合用来述表情的面部变化；维度模型中两个连续值变量，即效价和唤醒度，能够连续地编码出表情强度的细微过渡。

针对如何有效地利用这些模型，可以有以下几种思路。首先在设计网络参数时可以针对面部不同区域对表情的贡献值来赋予不同权重。其次也可以基于注意力机制来强调与面部肌肉单元最相关的区域，从而使模型能够学到具有表情判别性的特征表示。

4）多模态表情识别技术

尽管基于可视人脸图像的表情识别能够取得不错的效果，但与其他模态结合到一个高层框架中能够提供互补信息从而进一步增强模型的鲁棒性。例如，可以将音频模态作为次重要的因素与图像信息相融合来进行多模态的情感识别。

此外，红外图像、三维人脸模型的深度信息、人体生理信息以及手势姿态也可以作为面部表情的互补数据来辅助情感识别。将表情结合语音、文字、脑电信号的多模态表达识别是非常值得研究的问题，它将使得机器可以读懂人类的内心，人机交互将变得更加自然流畅，疲劳驾驶监控、犯罪心理测试技术、自闭症医疗服务等实际应用可以得到落实。

作者简介

图片2.png

李珊，北京邮电大学博士研究生，主要研究方向包括人脸表情识别以及深度学习。

E-mail: ls1995@bupt.edu.cn

图片1.png

邓伟洪，北京邮电大学教授，博士生导师。主要研究方向为模式识别与计算机视觉、人脸识别、表情识别、行人再识别、细粒度图像识别，以及视觉识别中遇到的瓶颈问题，深度迁移学习与度量学习的理论研究。
E-mail：whdeng@bupt.edu.cn

团队介绍

北京邮电大学模式识别实验室(http://www.pris.net.cn)于1998年依托信号与信息处理国家重点学科以及模式识别与智能系统信息产业部重点学科而创建。实验室长期从事模式识别、信息检索、网络管理等方面的研究，主要研究内容包括：互联网（论坛、博客、微博）舆情分析；互联网图片检索及过滤、视频检索及过滤、语音识别及过滤、信息检索与过滤技术、演进式多媒体过滤技术、网络管理技术等。

实验室现有教师20余名，其中教授4名，副教授10余名。实验室承担了科技部重点研发专项、无线重大专项、国家863、国家自然科学基金重点项目、教育部重点项目在内的国家级项目20多项。近5年来，实验室总计发表论文200多篇。实验室研发的手写汉字识别、文本分类、人脸检测等多个项目在国家863组织的技术评测中荣获第一名，成果已在华为、中兴、滴滴出行等知名公司实现转化。

END