面部表情识别新方式：Multimodal Learning实现Image与Landmark的融合

最新推荐文章于 2024-08-20 18:02:23 发布

周建丁

最新推荐文章于 2024-08-20 18:02:23 发布

阅读量2.2k

点赞数 1

文章标签：面部表情识别 Multimodal-Learning 多模态学习

本文链接：https://blog.csdn.net/happytofly/article/details/80122966

版权

山东大学和华为诺亚方舟实验室通过Multimodal Learning融合图像和地标信息，提升面部表情识别准确性和效率。研究在Pattern Recognition期刊发表，引入结构化正则项的AE预训练使神经网络能区分不同模态数据的影响，达到业界领先水平。

摘要由CSDN通过智能技术生成

Multimodal Learning用于面部表情识别，多模态分别表现为图像数据和标记点数据，使用Multimodal Learning对二者融合的意义在于更全面地表现表情信息以及区分不同模态的数据对表情识别的影响。

模式识别领域国际权威期刊Pattern Recognition在2015年4月发表了山东大学视觉传感与智能系统实验室与华为诺亚方舟实验室的研究成果“Multimodal Learning for Facial Expression Recognition”，该文章提出的多模态学习（Multimodal Learning）算法开拓了面部表情识别的一种新方式。

面部表情识别是人工智能的一个重要领域，其应用领域也较为广泛，如人机交互、交通安全、智能医疗等。近年来，随着众多学者不断地探索与发现，面部表情识别已经取得了长足的进步，对面部表情的识别精度和效率的要求也越来越高，因此，如何在冗余数据中提取有效信息并针对不同信息进行区别对待成为面部表情识别领域的一个关键。最近几年，包括麻省理工（MIT）、卡耐基梅隆大学（CMU）、匹兹堡大学（University of Pittsburgh）、Google、微软、中科院等国内外知名研究机构和公司都在不断推进这项研究。

图片描述

图1 针对表情识别的多模态学习结构

考虑到面部表情的整体性与局部细节完整性，山大和华为的研究人员在进行表情识别时融合了Image与Landmark信息，并具体分为5个模态的数据并同时输入到神经网络。在对神经网络采用AE（Auto-encoder）进行预训练时，为区分不同模态的数据对表情识别的影响，加入了结构化正则项（Structure Regularization），有效限制了隐层神经元与不同模态数据的连接，从而实现了网络区分不同模态数据对表情识别影响强弱的能力。山大和华为合作提出的多模态学习方法将Image与Landmark进行融合，使得输入数据能全面，与此同时，对不同输入信息区别对待，在表情识别任务上超过了其它研究机构，达到了业界领先水平。

图片描述

图2 AE（a）与AE+SR（b）

山大张伟博士和华为马林博士介绍，多模态学习算法为面部表情的识别的展开了新的方式，他们会持续关注并进一步就该方向开展研究。

2016年5月13日-15日，由CSDN重磅打造的2016中国云计算技术大会（CCTC 2016）将于5月13日-15日在北京举办，今年大会特设“中国Spark技术峰会”、“Container技术峰会”、“OpenStack技术峰会”、“大数据核心技术与应用实战峰会”四大技术主题峰会，以及“云计算核心技术架构”、“云计算平台构建与实践”等专场技术论坛。大会讲师阵容囊括Intel、微软、IBM、AWS、Hortonworks、Databricks、Elastic、百度、阿里、腾讯、华为、乐视、京东、小米、微博、迅雷、国家电网、中国移动、长安汽车、广发证券、民生银行、国家超级计算广州中心等60+顶级技术讲师，CCTC必将是中国云计算技术开发者的顶级盛会。详情访问CCTC 2016官网。