Facial expression recognition method with multi-label distribution learning for non-verbal behavior

用于课堂非言语行为理解的多标签分布学习人脸表情识别方法

Abstract

人脸表情的自动识别是计算机视觉和机器学习领域的研究热点。以前关于该主题的工作设置了许多约束,例如受限场景和低图像质量造成的影响。为了解决这些问题,我们提出了一种新的基于多标签分布学习的红外人脸表情识别方法,用于理解课堂上的非言语行为。具体来说,我们首先计算七种基本面部表情的特征相似度来描述相邻表情图像之间的关系。然后,用柯西分布函数拟合相似度值。此外,我们利用基于柯西分布的标签学习(CDLLNet)构造了一个新的深度网络,取代了传统的单表达式标签。通过这些修改的标签,一个红外面部表情可以有助于学习相邻的表情标签,以及其真实的表情标签。在两个人脸表情数据集:Oulu CASIA和CK+上对所提出的网络的性能进行了评估。一些定性和定量的实验结果验证了CDLLNet网络能够实现稳健的结果,并且显著优于现有的最先进的面部表情算法。

Introduction

主动红外(IR)成像下的人脸表情识别(FER)是理解人类行为注意力的重要方法[1-7]。它在计算机视觉和图像理解领域引起了广泛关注[8,9],如教育技术[10-12]、机器人视觉[11,13-15]、人机交互[16,17]、计算机视觉[18-21]和智能控制[13,22-24]。在课堂上,教师使用表达可以被视为与学生进行非言语交流的一种常见形式[25–27]。面部表情包括情绪状态和意图的重要线索。然而,当使用传统的面部表情识别方法时,复杂的背景和不相关的面部区域(例如帽子和眼镜)会产生问题(参见图1)。

在过去几十年中,红外FER技术在表达数据集和分类算法方面取得了巨大进步[8,28–40]。成像系统可以在主动近红外(NIR)成像(780–1100 nm)[41–43]下获得无可见光的干净图像。人脸表情识别主要包括人脸检测、特征提取和表情识别三个步骤。第一步,开发了许多人脸检测器来定位人群中的人脸,包括CNN-MT和Dlib[8]。捕获的面部图像可以为后续步骤进行预处理。在第二步中,我们提出了许多算法来提取人脸的几何特征,这些特征是由人类的各种情绪和外观引起的。最后一步是对不同的面部表情进行分类。总之,FER方法可分为三类:基于手工特征(HCF)的方法、基于辅助信息的FER方法(AIB)和基于深度学习的FER方法(DLB)。

对于HCF方法,通过不同的数学算子提取手工制作的特征,包括Gabor小波系数[44–46]、梯度直方图(HoG)[47–49]、分形几何[20,50]和局部二元模式[51]。但是,这些操作符只能显示基于纹理的局部特征。为了克服这一问题,一些研究开发了关键点标记方法来提取全局面部特征,如嘴巴、眉毛和鼻子。然后,结合局部特征和全局特征进行提取,丰富人脸特征表示。对于DLB方法[4,23,38,52],McDuff等人[53,54]提出了一种新的基于CNN的FER方法来描述红外面部表情图像。该网络可以学习多姿态、多尺度的人脸特征。在[55–57]中,Kahou等人提出了一种新的深度神经网络,通过模态信息融合来揭示面部表情特征。该模型取得了令人印象深刻的结果,并赢得了2013年FER2013竞赛的冠军。

在我们之前的工作[2,11,25,58]中,我们提出了一种手势估计方法来捕捉课堂上的教学行为。提出了一种四层卷积的非线性神经网络来提取红外手势图像的特征。事实上,面部表情也属于课堂教学行为的一种类型(见图2)。与照明良好的人脸图像不同,红外人脸图像在黑暗环境中表现更好。主动近红外照明为捕捉面部表情图像提供了稳定的成像条件。这些图像可以分为几个类别,如愤怒、恐惧、快乐、中立、惊讶、悲伤和厌恶。然而,红外人脸表情图像存在遮挡、头部姿态变化和随机噪声等问题。为了应对这些挑战,我们提出了一种有效的基于多标签分布学习的红外人脸表情识别方法。表情标签被构造为柯西分布,以克服模糊的面部表情问题。此外,引入KL散度来度量预测和地面真值分布,这对低质量的红外人脸图像具有鲁棒性。总的来说,本文的主要贡献可以总结如下:

(1) 我们提出了一种柯西分布标签学习网络(CDLLNet)来学习红外表情图像中的人脸特征。该方法采用GoogleNet,利用协方差池层捕获二阶图像特征。
(2) 为每个表达式构造一个基于柯西分布的标签,帮助CDLLNet判断表达式图像的种类。根据表情图像特征的相似度值设计分布标签。
(3) 在多个公共数据集上的实验结果表明,所提出的CDLLNet模型在Oulu CASIA上的性能为86.71%,在CK+上的性能为83.14%,优于最先进的方法。

本文的其余部分组织如下:
第2节计算不同面部表情之间的相似性和校正,并提出基于柯西分布的标签。
然后,我们描述了所提出方法的方法和用小批量梯度下降算法进行的优化。
第3节说明了在几个公共数据集上的实验结果。最后,我们在第4节中总结这项研究。

The architecture of CDLLNet

我们提出了一种新的多标签学习网络。表达式图像标签被构造为柯西分布。由于每个表达式都有自己相似的表达式,因此每个表达式的标签都不同。最后,我们介绍了完全训练CDLLNet的替代训练策略,并详细说明了推理策略。

Overview of CDLLNet model

该网络的体系结构包括三层,如卷积层、协方差池层和输出层。CDLLNet网络的管道如图3所示。CDLLNet体系结构的框架有三个主要组成部分:GoogleNet主干结构、协方差池层和KL损耗。

Cauchy distribution-based expression labels

标签分发学习的第一步是标签分发构造。准确的表情标签构造将显著提高人脸表情识别的性能。引入余弦相似度[59–61]来度量两幅面部表情图像的特征相似度。给定两个不同的红外图像Img1和Img2,表达式特征的相似性计算如下。

首先,引入预训练神经网络(GoogleNet)提取红外表达式的主要特征。在最后一个全连接层,输出向量可以表示近红外人脸图像的特征。为了计算两个面部表情的相似性,可以从预先训练的神经网络中获得两个向量。

其中,FEA(Img)是最后一个完整连接层的矢量。由于每个近红外人脸表情中都存在歧义,因此表情Img1与其他表情之间的相似度值并不相等。表达式特征向量由网络预测,并在预测步骤中解码为特定的表达式值。此外,特征向量中的每一个值都可以看作是一个概率值,表示人脸表情图像在不同人脸类别中的可能性。因此,利用所有面部类别之间的相似度值来构造表情标签分布。对于给定的面部表情图像(中性),有六个相似性值,它们由公式(1)计算。采用驼峰排序算法对所有相似值(概率值)进行排序。以快乐表情为例,表情顺序可以说明如下:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值