重点导读-Non-Contact Emotion Recognition CombiningHeart Rate and Facial Expression for Interactive Gamin

通过Kinect2.0捕获的视频对心率和表情进行连续识别。双向长短期记忆网络用于学习心率特征,卷积神经网络用于学习表情特征。为了进一步满足实时性的要求,采用自组织神经网络融合心率和表情特征,能够很好地识别运动员的情绪。实验结果表明,该模型对不同游戏中的“兴奋”、“愤怒”、“悲伤”和“平静”四种情绪具有较高的准确率和较低的计算时间。此外,情绪的强度可以通过心率值来估计。

在这里插入图片描述

首先,利用特征矩阵联合近似对角化算法对红-绿-蓝和红外四通道信号进行独立分量分析。并且对获得的独立分量进行快速傅立叶变换(FFT),以匹配心率范围,从而获得玩家的HR值。HR值可以很好的反映球员的情绪强度。然后,采用双LSTM提取心率特征,因为它可以将上下文信息考虑在内,并对时间序列数据进行建模。其次,考虑到CNN网络在图像处理中的广泛应用,在对人脸图像帧进行检测、分割、灰度化和减去均值后,将人脸感兴趣区域输入到我们的CNN模型中,用于提取人脸表情特征。最后,自组织映射网络(SOM)不需要预先指定输入数据的类别,可以对输入数据进行聚类分析,实现对数据的初步分类,反向传播神经网络具有非线性映射能力,能够完成最终的分类。我们的自组织神经网络用于融合心率和表情特征。融合后的特征能够很好的识别玩家的情绪。

the joint approximation diagonalization of eigen-matrices (JADE)特征矩阵联合近似对角化算法
independent component analysis (ICA) 独立分量分析

本研究中连续30秒的情感识别与人类情感的连续感知相一致

随着心跳,血液被泵送到面部肌肉,引起面部亮度值细微变化。这些细微的变化可以被分析用来获得心率,Kinect2.0可以通过内置摄像头检测到面部亮度值的周期性变化。我们用Kinect2.0每30秒采集一次面部亮度信号。

如图3所示,我们以两种不同的方式处理捕获的面部亮度,根据上述方式(图3),在对信号进行独立分量分析(ICA)和快速傅立叶变换(FFT)后,我们可以计算心率值。而根据下面的方法(见图3),我们对采用高斯白噪声降噪后的信号使用双LSTM。然后可以获得由心率信号表示的情绪特征。

在实验中,我们使用Kinect2.0和智能腕带来同时测量玩家在随机情绪状态下的心率。进行了20次比较测量,结果记录在一个记录集内,这个记录集可能持续30秒。如图5所示,可以看出,测量误差在6 bpm以内。在获得HR值后,我们可以根据自己的情绪判断规则对玩家的情绪状态做出初步判断。

接下来,我们提取由心率信号表示的特征。由于角度或环境光的影响,捕获的信号中存在噪声。捕获的信号不能直接用于心率特征提取。我们在信号中加入高斯白噪声fN(0,1)

心率信号是时间序列信号,在时间上是相关的。双LSTM[30]–[33]可以将上下文信息考虑在内,是时间序列数据建模的理想选择。如图6所示,双LSTM用于处理心率信号。

每个LSTM单元将选择性地忘记细胞状态中的信息并记住新的信息。这样可以传递有用的信息,丢弃无用的信息。LSTM单元输出隐藏层状态ht(t= 1,2,.。。,n)。如何遗忘、记忆和输出由遗忘门控制,输入门和输出门由最后时刻ht-1的隐藏层状态和当前输入ϕt.计算。

HOG特征描述符加上一个线性分类器来完成人脸检测,然后利用Kinect主动外观模型算法对感兴趣区域进行实时分割。如图7所示,感兴趣区域包括五个特征点(左右眼、鼻子、左右嘴角)。由于角度或背景的影响,感兴趣区域存在噪声,不能直接用于FE特征提取。这些ROI必须经过预处理。经过滤波、去噪和灰度均衡后,原始获得的图像成为灰度图像。

对人脸图像帧进行检测、分割、灰度化并减去其均值后,将其维数降低到48px×48px。48px×48px人脸图像成为我们CNN模型的输入。

CNN模型的池化层可以避免卷积层数量增加带来的维度灾难。在我们的CNN模型中,下采样是通过最大池来执行的。降采样后,特征图的数量与之前相同,但参数的数量会减少,因为它会从每个特征图中移除不必要的信息。

全连接层通过学习所有权重来集成“好”特征并减少其他特征,从而充当分类器。经过FC层,输出变成一维数组。
应用反向传播[34]和随机梯度下降法[35]通过最小化损失函数来训练我们的CNN模型。在全连接层上使用Dropout,以防止过拟合

基于自组织映射神经网络的特征融合

自组织映射神经网络, 即Self Organizing Maps (SOM), 可以对数据进行无监督学习聚类。
荷兰人在1981年提出的自组织映射(SOM)[37]从多维数据形成一维或二维表示。演示保持了数据的拓扑结构。这样,彼此非常相似的数据向量可以在地图上彼此相邻。自组织映射网络是一个竞争学习网络,由输入层和竞争层组成。
BP神经网络是根据误差反向传播算法训练网络的多层前馈神经网络。作为最广泛使用的神经网络之一,其结构包括输入层、隐藏层和输出层。
在这里插入图片描述它的思想很简单,本质上是一种只有输入层–隐藏层的神经网络。隐藏层中的一个节点代表一个需要聚成的类。训练时采用“竞争学习”的方式,每个输入的样例在隐藏层中找到一个和它最匹配的节点,称为它的激活节点,也叫“winning neuron”。 紧接着用随机梯度下降法更新激活节点的参数。同时,和激活节点临近的点也根据它们距离激活节点的远近而适当地更新参数。

我们希望交互式游戏环境中的情感识别快速调整游戏难度,因此实时性非常重要。自组织映射网络不需要大量的训练数据,能够满足实时性的要求。但有些初始权值离输入向量太远的神经元,永远不会在竞争中胜出,成为死神经元。为了克服这一缺点,将故障诊断效果较好的BP神经网络与自组织神经网络相结合是一种理想的选择。SOM network具有自学习能力,可以对未分类的样本进行聚类分析,实现初步分类。然后将自组织神经网络中获胜神经元的位置输入到BP神经网络中,以避免神经元死亡。因此,我们结合自组织神经网络和BP神经网络的特点来融合心率特征和面部表情特征。

如图8所示,我们的SOM-BP模型包括一个输入层、一个竞争层、一个隐藏层,最后是一个输出层。即在传统的三层BP网络中增加一个SOM竞争层。首先,自组织映射网络通过将高维空间的线性不可分特征映射到线性可分特征,自动实现特征的初步识别,该操作使得神经网络的压力更小,识别特征的难度更小。
在这里插入图片描述然后将聚类特征从竞争层转移到隐藏层。最后,神经网络以监督学习的方式完成从输入到输出的非线性映射,并对玩家的情绪进行分类。

12个志愿者在玩游戏的时候,我们用Kinect2.0记录他们的面部视频,游戏的难度。游戏结束后,志愿者的反馈被记录为地面真相。我们用三种不同的方法对人脸视频进行处理,得到面部表情特征、心率特征和心率值。首先,为了证明融合面部表情特征和情感特征在交互式游戏环境中的有效性,将使用面部表情特征和情感特征分别识别的情感与融合特征识别的情感进行比较。其次,将HR值与游戏难度进行对比,验证情绪强度与HR值相关。第三,通过面部表情和心率测量的兴奋程度进行比较,证明心率是不受人控制的。最后,将我们的方法与文献[2]、[11]、[13]、[19]中的方法进行了比较,并比较了不同的特征融合方法。

实验前,12名志愿者在室内休息5分钟,以平静他们的情绪。在5分钟的休息状态下,志愿者被告知闭上眼睛放松,同时记录心率信号[38]。一旦他们的心率稳定下来,他们被邀请坐在电脑前玩游戏,同时,他们的面部图像是用Kinect2.0通过RGB彩色和红外摄像头以50帧/秒的速度采集的,如图9所示。自始至终,每30秒,我们对志愿者进行一次30秒长的情绪识别。我们在情绪识别程序中保存了一些中间结果,作为初步结果的基础。初步结果如下:面部表情识别在30秒内保存了面部表情平均值。面部表情识别获得以下识别结果:1)标记为IsHappy当它发现那张脸在微笑;2)当检测到面部没有微笑并且有皱眉动作时,标记为IsNotHappy。3)当检测到面部没有明显的微笑或皱眉动作时,标记为IsNeutral。

我们选择了30秒内出现次数最多的表情作为面部表情识别结果。此时,我们可以根据表3所示的情绪判断规则对志愿者的情绪进行初步判断。初步的结果可以提前检测出最终的情绪是否被误判。

我们的方法在30秒内检测玩家的情绪,以获得更可靠的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值