论文学习-Non-Contact Emotion Recognition Combining Heart Rate and Facial Expression for Interactive Gami

Non-Contact Emotion Recognition CombiningHeart Rate and Facial Expression for Interactive Gaming Environments

交互式游戏环境中结合心率和面部表情的非接触式情感识别
论文地址
链接:https://pan.baidu.com/s/1aQY-RyWsvUZ1j68zYLNkvg
提取码:2wnv

摘要:在玩互动游戏时,优化用户娱乐或学习体验的关键是理解他的情绪反应。目前的方法大多利用侵入性的生理信号来检测玩家的情绪。在本研究中,我们提出了一种基于心跳信号和面部表情来检测玩家情绪的方法。在这项工作中,考虑到对人类情感的连续感知,通过Kinect2.0捕获的视频对心率和表情进行连续识别。双向长短期记忆网络用于学习心率特征,卷积神经网络用于学习表情特征。为了进一步满足实时性的要求,采用自组织神经网络融合心率和表情特征,能够很好地识别运动员的情绪。实验结果表明,该模型对不同游戏中的“兴奋”、“愤怒”、“悲伤”和“平静”四种情绪具有较高的准确率和较低的计算时间。此外,情绪的强度可以通过心率值来估计。

术语:无接触情绪识别,面部表情,心率,游戏评估。

一介绍

如今,越来越多的用户被电脑游戏所吸引,因为它们能够以互动和游戏的方式呈现信息。这款游戏最初是为了增加用户的娱乐体验而设计的。游戏随着时间的推移越来越丰富,逐渐被用来帮助用户解决工作、教育、生活等实际问题。这些都可以归功于游戏能够为用户提供一种如乐趣和兴奋的情感体验,从而达到“教上快乐”的效果。这些情绪可以被检测到,并用于对游戏难度或游戏性进行实时调整。因此,游戏中情感识别的研究可以保持用户的参与度,提高游戏体验。出于这个目的,游戏用户的自动情绪识别是强制性的,以保持他/她的参与,而不中断他/她的游戏过程[1]。情感识别主要通过两种方式实现,一种是通过获取玩家的情感行为,如面部表情、面部微动作、言语、肢体动作等。另一种是检测玩家的生理信号,如心跳(HR)、HR变异性、心电图(ECG)、脑电图(EEG)。在各种情感信号中,语音信号是最容易用于情感识别的信号。沈等[2]在自动语音情感识别研究中,使用支持向量机()作为分类器,对快乐、悲伤、中性、恐惧等状态进行分类。杨和Lugger [3]提出了一种基于音乐理论中已知的心理声学和声感知的语音情感识别方法,性能可靠。罗摩克里希南和艾默里[4]利用声学特征来识别情感,并介绍了10种有趣的语音情感识别应用。但由于游戏的背景音乐干扰了玩家的声音,这些方法通常不起作用。

情感身体运动为区分情感提供了重要的视觉线索[5]–[9],Y ang和Narayanan [10]考虑了二元相互作用中身体运动动力学建模的统计,该框架通过肢体语言识别参与者的情绪状态。卡姆里[11]提出了一种通过全身运动识别情绪的系统,可用于自闭症儿童的情绪识别和表达。参考文献[12]提出了一种在体育比赛中基于运动员身体运动的自动情感检测方法。然而,这种方法不能推广到其他场景,因为大多数游戏目前不需要玩家全身移动。

面部表情是最广泛使用的情感识别方式。在[13]中,一种叫做面部动态图的方法能够通过微表情的视频序列正确地感知人们的情绪。文献[14]提出了一种基于2D几何特征的姿态不变人脸情感识别概率方法。Shojaeilangari等人[15]使用基于动态贝叶斯网络的统一概率框架来同时和连贯地表示不同级别的面部演变以识别情感。在方法[16]中,具有深度卷积网络特征的分类器可以实时跟踪玩家的面部表情,最佳识别率为94.4%。然而,个人有更多的控制和控制面部表情的能力,这使得真正感觉到的情感状态很难从他们的面部表情来衡量。最近,焦点已经转移到使用生理信号,这可以提供连续的测量,并且不受个人控制[17],因此,结合面部表情和生理信号是交互式游戏环境中的最佳解决方案。此外,多模态方法也被证明可以提高情感检测的准确性[19],[20]。

先前的研究表明,心率是区分不同情感状态的良好指标[21]。瓦伦扎等人【22】指出,不同的情绪状态可以触发不同的HR频率。此外,我们使用基于视频的方法来测量心率,而不会中断玩家的游戏过程。因此,本研究选择心率作为生理信号。

虽然这些方法取得了显著的效果,但仍需改进。
1)由于序列数据中上下文信息的重要性,连续情感识别可以获得更高的准确性[23],[24]。然而,大多数现有的方法集中于处理离散信号[25]。
2)测量心率具有高度侵入性,干扰了用户的游戏过程。所以无法获得他们真实的游戏感受。
3)情绪的强度相当有用,可以用来实时调整游戏玩法或游戏难度。目前大多数方法只识别情感类别。

在我们提供的方法(如图1所示)中,Kinect2.0收集包含玩家面部的视频序列,进行非接触式情感识别,以保持玩家的参与。首先,利用特征矩阵联合近似对角化算法对红-绿-蓝和红外四通道信号进行独立分量分析。并且对获得的独立分量进行快速傅立叶变换(FFT),以匹配心率范围,从而获得玩家的HR值。
HR值可以很好的反映球员的情绪强度。然后,采用双LSTM提取心率特征,因为它可以将上下文信息考虑在内,并对时间序列数据进行建模。其次,考虑到CNN网络在图像处理中的广泛应用,在对人脸图像帧进行检测、分割、灰度化和减去均值后,将人脸感兴趣区域输入到我们的CNN模型中,用于提取人脸表情特征。最后,自组织映射网络(SOM)不需要预先指定输入数据的类别,可以对输入数据进行聚类分析,实现对数据的初步分类,反向传播神经网络具有非线性映射能力,能够完成最终的分类。我们的自组织神经网络用于融合心率和表情特征。融合后的特征能够很好的识别玩家的情绪。我们的模型提供了一种非接触的方式来利用心率和表情进行情感识别。
在这里插入图片描述

本文的主要贡献如下:
1)本研究中连续30秒的情感识别与人类情感的连续感知相一致,减少了伪装。此外,我们的方法可以检测情绪强度。
2)我们使用基于视频的心率检测作为情绪识别的通道,实现了对心率的无接触测量
3)由于采用了自组织神经网络,模型能够满足实时性的要求

本文的其余部分组织如下:第二节介绍了表情和心率特征的提取以及如何基于自组织神经网络进行融合。在第三节中,我们给出了实验结果来评估所提出的方法。第四部分得出结论。

二情绪识别方法

A.心率值和特征的获取
人的情绪和自己的HR有很强的相关性,从医学的角度来说,当人的情绪发生变化时,自己的HR也会随之变化。麦克拉蒂[21]观察到,某些情绪状态总是与不同的心理和行为因素相关,并对应于特定的心率模式。图2显示了特定情绪下的心率变化。HR值也受情绪影响。人的静息心率是他/她休息时每分钟的心跳次数。对我们大多数人来说,每分钟60到100次心跳是正常的[26]。
在这里插入图片描述随着心跳,血液被泵送到面部肌肉,引起面部亮度值细微变化。这些细微的变化可以被分析用来获得心率,Kinect2.0可以通过内置摄像头检测到面部亮度值的周期性变化。我们用Kinect2.0每30秒采集一次面部亮度信号。

如图3所示,我们以两种不同的方式处理捕获的面部亮度,根据上述方式(图3),在对信号进行独立分量分析(ICA)和快速傅立叶变换(FFT)后,我们可以计算心率值。而根据下面的方法(见图3),我们对采用高斯白噪声降噪后的信号使用双LSTM。然后可以获得由心率信号表示的情绪特征。
在这里插入图片描述这里介绍一下HR值的计算方式。我们对归一化信号进行独立分量分析。独立分量分析(ICA)是一种基于高阶统计有限元的信号分析方法
观察到的随机信号遵循(1)。
在这里插入图片描述
其中x是观察信号矩阵,并且在每个观察信号之间存在统计相关性。在分离矩阵w的变换之后,信号矩阵的各个信号分量之间的相关性降低。JADE算法[27]属于ICA算法中的批处理算法,可以计算w,计算步骤如下。
第一步 计算来自四个通道的信号的协方差并计算白化矩阵
在这里插入图片描述
第二步 计算四阶累积量
在这里插入图片描述
第三步 利用U矩阵共同对角化 Ne
在这里插入图片描述
第四步
在这里插入图片描述
分离后,四个通道(RGB和IR)的信号如图4所示。然后使用快速傅立叶变换提取信号,以找到匹配的心率范围[28]。
在这里插入图片描述这种计算心率值的方法后来与测量心率可靠性高的智能腕带提供的值进行了比较,在实验中,我们使用Kinect2.0和智能腕带来同时测量玩家在随机情绪状态下的心率。进行了20次比较测量,结果记录在一个记录集内,这个记录集可能持续30秒。如图5所示,可以看出,测量误差在6 bpm以内。在获得HR值后,我们可以根据自己的情绪判断规则对玩家的情绪状态做出初步判断。

在这里插入图片描述接下来,我们提取由心率信号表示的特征。由于角度或环境光的影响,捕获的信号中存在噪声。捕获的信号不能直接用于心率特征提取。我们在信号中加入高斯白噪声fN(0,1)[29]。噪声公式可以写成
在这里插入图片描述
在这里插入图片描述
其中ξ表示xi(i = 1,2,.。。,n)包含高斯白噪声的信号,s表示噪声的程度,是一个常数。fN(0,1)是指从标准正分布中随机抽取的数字。
为了计算每一个ξ信号的隶属度,我们根据下面的公式对加入高斯白噪声的这一层信号进行全连接。公式可以写成
在这里插入图片描述
在这里插入图片描述
心率信号是时间序列信号,在时间上是相关的。双LSTM[30]–[33]可以将上下文信息考虑在内,是时间序列数据建模的理想选择。如图6所示,双LSTM用于处理心率信号。
在这里插入图片描述前进LSTM ( LSTMf)输入ϕ2 ϕ1。。。,ϕn在序列中,编码的向量是hf 1,hf 2,.。。,hfn。反向LSTM ( LSTMb)输入ϕn。。。,ϕ2,ϕ1in序列,编码载体是hb1,hb2,.。。,hbn。
在这里插入图片描述
考虑到hfnandhbnco包含前向和后向的所有信息,我们将它们拼接在一起进行情感分类(如图6(b)所示)。该模型采用反向传播最小化损失函数和随机梯度下降法进行训练。因此,我们可以用情感特征来标记心率信号。

每个LSTM单元将选择性地忘记细胞状态中的信息并记住新的信息。这样可以传递有用的信息,丢弃无用的信息。LSTM单元输出隐藏层状态ht(t= 1,2,.。。,n)。如何遗忘、记忆和输出由遗忘门控制,输入门和输出门由最后时刻ht-1的隐藏层状态和当前输入ϕt.计算。遗忘门根据下面的公式选择要遗忘的信息,该公式确定最后时刻的单元状态Ct有多少保留到当前时刻。公式可以写成
在这里插入图片描述
其中,ft表示遗忘门的输出,Wf是遗忘门的权重矩阵,[ ht 1,ϕt]是两个向量的连接,BF表示遗忘门的偏置,σ是Sigmoid函数。

输入门根据下面的公式选择当前输入ϕt记忆,该公式确定当前输入ϕt有多少被保存到单元状态Ct。
在这里插入图片描述
其中,it表示输入门的输出,Wii表示输入门的权重矩阵,[ ht 1,ϕt]是两个向量的连接,表示遗忘门的偏置,σ是Sigmoid函数。

临时单元状态Ct如(6)所示,表示当前存储器。
在这里插入图片描述
其中wcs是tanh门的权重矩阵,ht1,ϕt是两个向量的连接,Bc表示tanh门的偏置,tanh表示将单元状态限制在-1和1之间的值。
当前单元状态Ct如(7)所示,它可以将当前存储器与以前的存储器组合起来形成新的单元状态。
在这里插入图片描述
其中,ft表示遗忘门的输出,Ct -1表示上一时刻的单元状态,it表示输入门的输出,Ct表示临时单元状态。
输出门根据下面的公式控制有多少单元状态可用作LSTM的当前输出。公式可以写成
在这里插入图片描述
其中ot表示输出门的输出,Wo表示遗忘门的权重矩阵,[ ht 1,ϕt]是两个向量的连接,bo表示遗忘门的偏差,σ是Sigmoid函数。

然后我们通过tanh处理单元状态,得到一个介于-1和1之间的值。将获得的值乘以输出门的输出,得到一个新的隐藏层状态ht。
在这里插入图片描述

B.面部表情特征的获取
HOG特征描述符加上一个线性分类器来完成人脸检测,然后利用Kinect主动外观模型算法对感兴趣区域进行实时分割。如图7所示,感兴趣区域包括五个特征点(左右眼、鼻子、左右嘴角)。由于角度或背景的影响,感兴趣区域存在噪声,不能直接用于有限元特征提取。这些ROI必须经过预处理。经过滤波、去噪和灰度均衡后,原始获得的图像成为灰度图像。
在这里插入图片描述对人脸图像帧进行检测、分割、灰度化并减去其均值后,将其维数降低到48px×48px。48px×48px人脸图像成为我们CNN模型的输入。

考虑到卷积神经网络在图像特征提取方面有很好的表现,我们用卷积神经网络模型实现了面部表情特征提取任务。如表1所示,整个模型由六个卷积层、三个汇集层和最后一个全连接层组成。
在这里插入图片描述我们模型的第一层是卷积层,它是特征提取层。我们对卷积核和上层用所有的特征地图执行卷积运算
卷积运算的输出由激活函数激活,从而形成当前卷积层的特征图。操作如下
在这里插入图片描述
其中netl j表示第1层的加权输入。a1 I代表l–1层输出的特征图,wl i,是卷积核矩阵,它包括l-1层神经元和l层神经元之间的连接权。wb表示第j个要素图的偏移项。a1,jdenotes卷积l层的j特征图。ReLU()(校正线性单位)是激活函数。在训练中,ReLUs往往比它们的同类产品快几倍。使用ReLUs的主要优点是可以缓解在使用其他两个激活函数(Sigmoid,Tanh)时非常常见的梯度消失问题。ReLU()的定义如下
在这里插入图片描述
其中x是神经元的输入。
CNN模型的池化层可以避免卷积层数量增加带来的维度灾难。在我们的CNN模型中,下采样是通过最大池来执行的。降采样后,特征图的数量与之前相同,但参数的数量会减少,因为它会从每个特征图中移除不必要的信息。操作如下
在这里插入图片描述
其中a1 j是池l-1层的j要素图。down()表示下采样功能。
全连接层通过学习所有权重来集成“好”特征并减少其他特征,从而充当分类器。经过FC层,输出变成一维数组。计算如下
在这里插入图片描述
其中net j列出了全连接层的输出。wl代表神经元之间的权重矩阵。a1表示上层的输入特征向量。wb是完全连接的1层的偏移项。
参数的详细规格列于表1。
应用反向传播[34]和随机梯度下降法[35]通过最小化损失函数来训练我们的CNN模型。在全连接层上使用Dropout,以防止过拟合[36]。

C.基于自组织映射神经网络的特征融合
荷兰人在1981年提出的自组织映射(SOM)[37]从多维数据形成一维或二维表示。演示保持了数据的拓扑结构。这样,彼此非常相似的数据向量可以在地图上彼此相邻。自组织映射网络是一个竞争学习网络,由输入层和竞争层组成。
BP神经网络是根据误差反向传播算法训练网络的多层前馈神经网络。作为最广泛使用的神经网络之一,其结构包括输入层、隐藏层和输出层。

我们希望交互式游戏环境中的情感识别快速调整游戏难度,因此实时性非常重要。自组织映射网络不需要大量的训练数据,能够满足实时性的要求。但有些初始权值离输入向量太远的神经元,永远不会在竞争中胜出,成为死神经元。为了克服这一缺点,将故障诊断效果较好的BP神经网络与自组织神经网络相结合是一种理想的选择。somnetwork具有自学习能力,可以对未分类的样本进行聚类分析,实现初步分类。然后将自组织神经网络中获胜神经元的位置输入到BP神经网络中,以避免神经元死亡。因此,我们结合自组织神经网络和BP神经网络的特点来融合心率特征和面部表情特征。

如图8所示,我们的SOM-BP模型包括一个输入层、一个竞争层、一个隐藏层,最后是一个输出层。即在传统的三层BP网络中增加一个SOM竞争层。首先,自组织映射网络通过将高维空间的线性不可分特征映射到线性可分特征,自动实现特征的初步识别,该操作使得神经网络的压力更小,识别特征的难度更小。
在这里插入图片描述然后将聚类特征从竞争层转移到隐藏层。最后,神经网络以监督学习的方式完成从输入到输出的非线性映射,并对玩家的情绪进行分类。

自组织映射神经网络在特征融合方面有很好的表现。HR特征和FE特征被输入到输入层的神经元。输入空间中的相邻特征将被映射到竞争层中的相邻神经元,竞争层是能够保持输入空间拓扑的二维平面。这样对二维特征进行分类,从而完成对输入特征的初步分类。如果输出层的情绪类别Y={y1,y2,y3,y4}与期望的情绪类别Y = { y1,y2,y3,y4 }不匹配,则进入误差反向传播阶段,从而完成从输入特征到玩家情绪的非线性映射。融合过程可以写成表2所示的步骤。

在这里插入图片描述这里详细描述了表2中涉及的方程。
在这里插入图片描述
其中wij表示输入神经元I和映射神经元j之间的权重。
在这里插入图片描述
其中η(t)表示学习率,0< η(t)<1,hc,j(t)表示定义域函数。
在这里插入图片描述
其中,dc,j代表从获胜神经元c到邻域中任何激活神经元j的距离,r代表邻域半径,其更新规则如下
在这里插入图片描述
其中INT()将一个数字四舍五入为最接近的整数,T表示迭代的总次数
在这里插入图片描述
其中f()表示非线性函数,0
在这里插入图片描述
这里的误差是SOM-BP网络的输出Y = {y1,y2,y3,y4}与预期输出Y = { y1,y2,y3,y4}之间的差值。

三 实验

在本节中,我们首先介绍收集数据集以测试我们的模型的过程,然后在数据集上分析我们的方法的结果,并将其与[2]、[11]、[13]、[19]中的方法进行比较。为了比较哪种形态更适合交互式游戏环境,选择了[2]、[11]、[13]、[19]中的方法。[2],[11],[13]中的方法分别采用言语、身体运动和微表情。方法[19]使用脑电图(EEG)、瞳孔反应和注视距离。由于[2],[11],[13]中的方法仅使用一种模态,因此我们也可以验证组合来自不同信息源的模态的重要性。

A.参与者
实验招募了12名志愿者(7名男性和1名女性),年龄从19岁到23岁不等。他们没有心血管疾病,身体健康。他们都是大学生。所有志愿者都是有两年以上游戏经验的游戏玩家。

B.仪器
如图9所示,本次研究使用的实验设备为Kinect2.0,可以记录1920×1080分辨率的32位彩色视频帧,红外相机可以记录521×424分辨率的16位视频,其工作频率为每秒50帧(fps)。测试开始时,参与者被要求在电脑前保持身体直立,Kinect2.0被放置在志愿者前方大约0.6米处。实验是在一个独立的房间里进行的,有恒定的光照和温度。
在这里插入图片描述C.设计

12个志愿者在玩游戏的时候,我们用Kinect2.0记录他们的面部视频,游戏的难度。游戏结束后,志愿者的反馈被记录为地面真相。我们用三种不同的方法对人脸视频进行处理,得到面部表情特征、心率特征和心率值。首先,为了证明融合面部表情特征和情感特征在交互式游戏环境中的有效性,将使用面部表情特征和情感特征分别识别的情感与融合特征识别的情感进行比较。其次,将HR值与游戏难度进行对比,验证情绪强度与HR值相关。第三,通过面部表情和心率测量的兴奋程度进行比较,证明心率是不受人控制的。最后,将我们的方法与文献[2]、[11]、[13]、[19]中的方法进行了比较,并比较了不同的特征融合方法。

D.程序(实验过程)
实验前,12名志愿者在室内休息5分钟,以平静他们的情绪。在5分钟的休息状态下,志愿者被告知闭上眼睛放松,同时记录心率信号[38]。一旦他们的心率稳定下来,他们被邀请坐在电脑前玩游戏,同时,他们的面部图像是用Kinect2.0通过RGB彩色和红外摄像头以50帧/秒的速度采集的,如图9所示。自始至终,每30秒,我们对志愿者进行一次30秒长的情绪识别。我们在情绪识别程序中保存了一些中间结果,作为初步结果的基础。初步结果如下:面部表情识别在30秒内保存了面部表情平均值。面部表情识别获得以下识别结果:1)标记为IsHappy当它发现那张脸在微笑;2)当检测到面部没有微笑并且有皱眉动作时,标记为IsNotHappy。3)当检测到面部没有明显的微笑或皱眉动作时,标记为IsNeutral。

我们选择了30秒内出现次数最多的表情作为面部表情识别结果。此时,我们可以根据表3所示的情绪判断规则对志愿者的情绪进行初步判断。初步的结果可以提前检测出最终的情绪是否被误判。
在这里插入图片描述
游戏结束后,我们立即确认志愿者在游戏过程中是否感受到了相应的情绪。如果真正感受到了相应的情绪,则在统计数字中统计一次。如果志愿者的反应是“不能回忆”或“感觉不到这四种情绪”,这一记录将被视为无效测量并被丢弃。此外,根据志愿者的反馈,我们发现情绪强度与心率频率有很强的相关性,因此我们提出的方法也能反映志愿者的情绪强度。然后我们比较了有效的情绪识别结果与志愿者的反馈是否一致。如果他们匹配,识别是准确的。每一轮之后,受试者必须休息5分钟以恢复心态,然后开始新一轮。

E.结果和讨论
根据以上经验,记录了240次测量,有些无效并被丢弃。然后我们得到了153个测量值。
我们记录了每个志愿者在四种不同游戏场景下的游戏玩法,分别是(1)队友配合完美,(2)单打独斗,队友不提供支持,(3)操作不当,游戏失败,(4)几乎等于对手的水平。如表4所示,其中一名志愿者具有相应的被认可的情绪。最后一行是玩家在四种游戏场景下的反馈情绪,与融合FE和HR识别出的情绪一致,第一行是FE只识别出的情绪。可以看出,“悲伤”被误判为“愤怒”,因为“悲伤”和“愤怒”区域的面部表情难以区分。第二行是只被心率识别的运动。我们可以看到它把“生气”错误地判断为“兴奋”,因为“生气”的频率是“兴奋”的两倍。因此,可以得出结论,融合两个通道信号后,识别结果更加准确,减少了FE或HR带来的模糊性。
在这里插入图片描述此外,我们的方法不仅识别这些不同类型的情绪,而且通过玩家的HR值来测量它们的强度。如图10所示,玩家的HR值的变化与游戏难度正相关(游戏难度用0-1的值量化。)。因此,随着游戏难度的提高,玩家的情绪变得更加强烈,从而增加了他的HR值。
在这里插入图片描述图11显示了四名玩家的游戏过程记录。如图所示,游戏难度分为六个等级,0最容易,5最难。我们只通过HR或FE来衡量兴奋程度。随着游戏难度的变化,我们比较了这两个信号衡量的兴奋程度。由此可见,HR检测到的兴奋程度与游戏难度更加吻合。因此,HR信号可以更客观地反映玩家在整个游戏中兴奋程度的变化。
在这里插入图片描述如表5所示,我们的方法不仅在可靠性方面表现出色,而且在效率方面也表现出色。这是因为这两个特征都是通过适当的算法从同源视频中提取出来的,并通过自组织映射神经网络进行融合。同源视频减少处理的数据量。这表明如何提取和融合特征对于实时情感识别是必要和有效的。
在这里插入图片描述
表6给出了FE和HR相结合的识别结果混淆矩阵,平均识别准确率为87.3%。我们的方法在识别“平静”方面有很好的表现,“兴奋”的准确率也相当高。由于“生气”和“难过”可以对应相似的面部表情,误判的概率较大,识别准确率相对较低。而表7给出了没有HR的识别结果的混淆矩阵,可以发现结合HR后,准确率有所提高,获得了更可靠的判断结果。所以HR弥补了FE带来的伪装和欺骗。
在这里插入图片描述如图12所示,我们将我们的方法与[2]、[11]、[13]和[19]中的方法进行了识别精度比较。结果表明,该方法在识别兴奋、愤怒、悲伤和平静方面表现较好。沈等[2]从人的话语中提取语音特征(能量、音高、线性预测倒谱系数()、梅尔频率倒谱系数()、线性预测系数和梅尔倒谱系数(LPCMCC))来自动分类五种情绪状态。方法[11]提出了一种根据全身运动进行自动情感识别的计算模型。情绪识别是通过一种叫做面部动态图的方法来完成的,该方法在方法[13]中以不同的粒度来表征微表情的运动。方法[19]提出了一种与用户无关的情绪识别方法,该方法使用脑电图、瞳孔反应和注视距离对视频进行目标覆盖有效标记。

性能的提高可以归因于融合两个信号(FE和HR),并在不干扰用户游戏性的情况下处理它们。前三种方法只使用一个信号通道来检测情绪,语音信号用于[2],全身运动用于[11],微表情用于[13]。相比之下,上述三种方法都不太适合游戏场景。具体可以描述如下。玩家在游戏中并不总是发出与情感相关的声音,当他们发出声音时,这些声音很可能与环境中的其他声音混合在一起,使得这种方法的性能稍差。此外,玩游戏不需要全身运动,使用方法[11]在这种情况下效果不好。最后,在方法[13]中,微表情转瞬即逝,在一个视频序列中只持续几帧。所以很难正确感知和解读。而在我们的方法中,心率信号和面部图像帧是在30秒内连续采集的。它可以保证较高的精度,因为人们的情绪是通过连续的方式感知的。方法[19]比前三种方法表现更好,但比我们的方法差,尽管它使用了玩家的脑电图信号、注视距离和瞳孔反应。原因是脑电图信号的收集使方法[19]具有侵入性,这扰乱了玩家的游戏过程。

此外,我们比较了基于[39]、[40]中两种不同融合方法的平均计算时间,即模糊积分和MFB。从表中可以看出。8,我们的方法的平均计算时间是最小的,因为自组织映射网络不需要大量的数据进行训练。基于SOM-BP的精度和F1略高于其他方法。基于自组织神经网络的RMSE比其他方法小。

四.结论

本文提出了一种基于有限元和心率信号的非接触式情感识别方法。首先,我们使用视频采集的数据作为检测情绪的手段,使测量过程无接触,不干扰玩家的活动。与其他信号不同,HR是无法弥补的,因此,我们一定会得到真实的数据。FEs也是用相机拍摄的。第二,我们的方法在30秒内检测玩家的情绪,以获得更可靠的结果。最后,情感的强度可以用HR值来衡量,这可以帮助游戏设计者设计出可以最大化用户体验的游戏。然而,我们的系统只被训练识别四种基本情绪,对光照和温度有很高的要求,在未来的工作中,将以识别更多情绪和设计适合常见场景的增量模型为目标进行改进。

生词短语

FE:facial expression面部表情
HR:heart rate心率
kinetic运动的活力的
autism:自闭症
he joint approximation diagonalization of eigen-matrices (JADE) algorithm特征矩阵联合近似对角化算法
cluster analysis聚类分析
camouflage伪装,掩饰
From a medical point of view从医学的角度来看
built-in cameras内置摄像头
unitary 酉
convolution operation 卷积运算
weighted input 加权输入
Dutch荷兰人
topology拓扑结构
preliminary recognition初步识别
linearly inseparable fea-tures of the high-dimensional高维线性不可分的特征
modality形式,形态;程序;物理疗法;主要的感觉
cardiovascular disease心血管病
the most appearing expression出现次数最多的表情
consistent with符合,与…一致
regain his mindset 重拾(恢复)他的心态
game difficulty is quantified with a value of 0-1游戏难度用0-1的值量化
Teammates match perfectly,队友配合完美,
homologous videos同源视频
confusion matrix混淆矩阵
camouflage and deception伪装和欺骗
user-independent与用户无关
pitch倾斜;投掷;搭帐篷;坠落
pupillary response and gaze distance.瞳孔反应和凝视距离。
scenario方案;情节;剧本
microexpressions are fleeting微表情转瞬即逝
genuine 真实的,真正的;诚恳的

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值