FacialExpressionRecognition Utilizing Local Direction-Based Robust Features and Deep Belief Network

利用局部基于方向的健壮性特征和深信念网络的面部表情识别

摘要情感健康对提高人们的生活质量,特别是对老年人的生活质量起着至关重要的作用。消极情绪状态会导致社会或心理健康问题。为了应对日常生活中负面情绪引起的情绪健康问题,我们提出了有效的面部表情识别系统,为情绪保健系统做出贡献。因此,面部表情在我们的日常交流中起着关键的作用,近年来,我们已经见证了大量的研究工作,用于可靠的面部表情识别(FER)系统。因此,从视频信息中进行面部表情评价或分析是非常具有挑战性的,其准确性依赖于对健壮性特征的提取。摘要本文提出了一种独特的特征提取方法,从人脸中提取出不同的特征。对于人的独立表达识别,深度视频数据被用作系统的输入,在每个帧中,根据距离到相机的距离来分配像素强度。在此工作中应用了一种新的鲁棒特性提取过程,该过程被命名为局部方向位置模式(LDPP)。在LDPP中,在为每个像素提取局部方向强度后,如应用于典型的局部方向模式(LDP),顶部的方向强度位置与它们的强度符号一起被认为是二进制的。考虑到在LDPP中具有强度标志的顶向强度位置,可以通过产生不同的模式来区分边缘像素和明亮的边缘,而典型的自民党只考虑代表最高强度的方向,而不考虑它们的标志和位置顺序(例如具有最高强度的方向表示1和其余的0),这有时在这方面可以产生相同的模式。因此,在某些情况下,自民党无法将边缘像素与相对明亮和黑暗的区域区分开来,这可以被LDPP所克服。此外,LDPP的能力通过主成分分析(PCA)和广义判别分析(GDA)扩展,以获得更好的面部特征说明。提出的特性最终应用于深度信念网络(DBN),用于表达训练和识别。

索引术语:面部表情识别(FER)、深度信念网络(DBN)、深度图像、广义判别分析(GDA)、局部定向模式(LDP)、主成分分析(PCA)。

  • 介绍

最近,无处不在的医疗保健系统吸引了大量的研究人员,因为他们在人机交互领域(HCI)的突出应用。在一个无处不存在的医疗保健系统中,如果计算机能够识别出人们的面部表情,并根据用户的需要做出友好的反应,那么HCI系统将会得到很大的改善。当人类在日常生活中经历任何情况时,他们通过情感表达自己的精神状态,从而影响他们的行为、思想和感情。积极的情绪可以通过传递快乐和快乐等位置表达来代表健康的精神状态。相反,消极的情绪可以表现出消极的情绪,比如悲伤和愤怒。因此,积极和消极情绪都能在我们的日常生活中影响情绪健康。情绪健康指的是处理问题的能力。

有良好情绪健康的人可以积极地控制自己的情绪,而情绪不好的人通常会在控制自己的行为和感觉方面遇到困难。他们常常无法控制自己来应对负面情绪。在最坏的情绪健康状况下,他们可能会成为心理病人。因此,不良的情绪健康会导致人们的社会和心理健康问题。为了改善情绪健康,一个有效的面部表情识别系统可以发挥重要的作用来理解心理状态,随着时间的推移,可以产生心理健康日志来进行精神行为模式的肛门溶解。

目前,许多科学家都对基于视频的面部表情或表情识别(FER)进行了大量的思考,因为它被认为是机器人视觉和图像处理中最具吸引力的研究课题之一。绝大多数的FER工作都遵循了主成分分析(PCA)3 10。在3中,它被用于检测各种面部动作单位。在5年,它被用于分析面部活动编码系统。后来,一些作品使用了独立的成分分析(ICA方法在FER的工作中。在14岁的时候,ICA被用来获得局部的统计上无偏见的特征来分类各种面部表情。ICA也被用来识别15岁时的面部活动。

除了ICA,本地二进制模式(LBP)目前还专注于面部特征分析。LBP的特点是可以容忍的,在对照明的反对和计算上,它们是简单的。在一段时间内,代表本地面孔特征的局部定向模式(LDP)通过专门的面部像素梯度记录被采用。在获得一个像素的方向优势之后,在获得了一个像素的方向优势之后,二进制值主要基于在不同的实验环境中,t的价格是由经验决定的。

在这篇文章中,一个典型的自民党被改革以获得比自民党更大的成功。在确定深度像素的强度后,以降序获得最大的方向性优势,并将相应的功率符号位与二进制的顶向力位置混合,以表示强大的功能。这种方法被命名为局部方向位置模式(LDPP)。对于一个像素来说,典型的自民党是通过为他们分配位1和0的方向来考虑的。它从来没有考虑过强度的标志和方向的顺序,这可能会导致两种相反的边缘图像——具有相反的黑暗和明亮区域的边缘。这个问题可以被提议的LDPP解决。基本上,对于边缘像素,暗区主要表现为负的强度,而明亮的区域则显示出正的强度。由于自民党没有考虑到方向优势的迹象,两个边缘的像素与黑暗和明亮的区域可能会交换力量信号,保持他们的力量顺序相同,这应该为这两个边缘像素生成相同的自民党代码,在这些像素点上应该是非常不同的模式。此外,自民党代表的是一种具有最高优势的方向,而在其他方面则没有考虑到理论的优势。在这种情况下,自民党成为了一种软弱的产生特征的方法,而考虑到力量的符号位和二进制的最大方向力量位置,可能会解决这个问题,这是一个非常强大的问题。因此,最上面的方向强度位置被认为是二进制的符号位,然后,LDPP直方图被生成来表示整个脸部的健壮性特征。为了使LDPP具有更强的鲁棒性,一般的判别分析(GDA)在应用PCA进行尺寸缩小后得到了应用。GDA被认为是一种有效的工具,可以区分不同类别的特性。

  1. 相关FER工作

关于使用相机进行面部表情的肛门-溶解,RGB相机最受欢迎,因为面部图像很容易从这些相机中获得,此外,它们很便宜,而且通常用于日常应用,比如通过不同类型的基于互联网的软件进行视频聊天。尽管RGB相机非常有名,但通过它们捕捉到的图像可以非常迅速地改变脸部像素的强度,这是由于场景中的照明变化。因此,基于距离的图像可以成为面部表情识别的更好选择,但RGB相机无法生成这种基于距离的面部图像来描述图像中独立的面部表情。

然而,基于深度的相机可以通过提供面部部分的深度信息来克服这种不确定的情况,这可以让你的面部表情比基于rgb的更有效的表达识别系统。此外,深度照相机可以解决一些隐私问题,比如在深度图像中隐藏人的身份,而RGB相机不能在RGB图像中隐藏人的身份,因此,无论每个人的身份如何,深度相机都可以被利用。因此,许多研究人员在广泛的计算机视觉和图像处理应用程序中受到了许多研究人员的关注,如身体运动识别31 52,手部运动重编码,53 62,面部识别63 76。在31年,作者分析了人类活动识别的深度视频。在33年,作者分析了人类活动识别的深度图像的表面直方图。在34年,作者们从深度数据中移动了身体部位的分析,以获得强健的人类活动识别。杨等人使用深度运动地图(DMM)来获得36的时间运动能量。在40岁的时候,Koppula等人应用了人类与物体互动的深度视频。在41年,杨等人获得了利用深度视频获得的特征关节,用于人类行为分析的奈-贝-近邻(NBNN)。在42中,宋等人在深度视频中使用了最大熵马尔可夫模型(MEMM)。除了人类活动外,还为人机交互进行了深度信息化的手部运动研究,44-52。在45年,粒子群优化是为了分析在深度视频中相互作用的手。

在46岁的时候,作者们应用了深度图像来进行物体的深度拍摄。在47篇文章中,作者重点研究了基于深度信息的手部运动和应用随机森林的手部部分分割。美国手语(ASL)也专注于各种手势研究49 52。类似的用于手势识别的深度数据分析的研究信息可以在53 62中找到。在一些作品中,深度信息也被用于头部/脸部位置估计。例如,在66年,作者应用神经网络从深度图像中进行头部估算。在68年,作者关注的是深度面部的鼻子位置。在71年,作者们确实面临着来自低质量的深度图像的识别,这些图像是由立体摄像机拍摄的。在73年,作者重点研究了基于深度成像的上面研究。

为了训练和识别表达特征,隐藏-登马尔可夫模型(HMM)已经在一些诸如77、78等的作品中被考虑过。现在,深层神经网络——工作(DNN)获得了大量的考虑,因为DNN可以从它的其他分类器中创建一个信息。同样地,DNN可以克服感知器的一些限制,而这些约束还没有准备好执行一般模式识别。然而,DNN需要大量的时间来完成任务。2004年,希尔顿等人提出了一种增强的DNN的形式,称为“深度信念网络”(DBN),它使用受限的伯尔斯伯尔机器(RBM)来熟练地准备80。在81 88年有一些不同的作品。

  1. 提出工作

摘要基于一种基于深度传感器的视频摄像机图像,提出了一种新的方法,利用LDPP、PCA、GDA和DBN。LDPP的特征首先从面部表情深度图像中提取出来,然后PCA被应用于尺寸缩小。此外,GDA将这些面部特征分类,使其更加健壮。最后,应用这些特性来训练DBN,以便稍后应用于云上的识别。图1描述了所提议的FER系统的基本构造。

  • 特征提取

深度照相机首先用于捕捉深度图像的不同深度图像,同时也能捕捉到一般的深度信息。深度传感器的视频信息或数据显示了科学中每个像素的范围,作为灰色级别的力量或强度。图2(a)和(b)分别代表一个快乐的RGB和深度图像。深度图像显示,对于遥远的脸部部分,近和暗的像素值是明亮的。图3分别显示了来自惊讶和厌恶表情的一系列灰色和深度的面孔。

  1. 局部定向位置模式(LDPP)

对于输入深度面的每个像素,LDPP都会指定一个8位二进制码。通过从八个不同的方向来考虑前两个边缘的强度位置,计算出这个样本模式。对于图像中的像素,8个方向的边反应值D i,其中i=0,1,……7是由Kirsch口罩计算出来的。图4展示了Kirsch面具。在应用蒙版后,定向位置被确定为

因此,一个像素x的LDPP代码被派生为

g代表最高的边缘响应方向,e第二高的边缘响应方向,对相应方向的边缘响应的R级排序。图5描述了边缘响应,边缘响应的符号位,以及边缘响应等级为8个方向。最高的边缘响应被设置为第8级。然后,第二高的响应被设置为第七,以此类推。图6显示了两个LDPP代码的例子,其中典型的自民党为不同的边缘制定了相同的模式,但LDPP可以产生单独的模式。在图的上半部分,最高的边响应是2422,因此像素的第一个LDPP代码是2422的符号位是0而下面的三个位是最高强度位置的方向的二进制。001是1从D 1的二进制数。第二高的边响应是1578,因此,LDPP的第5位元代码是1578的符号位,是1后面跟着三个位,这是方向的二元,也就是第二个。100是4的二进制4。因此,上像素的LDPP代码为00011100,而下像素为10010100。另一方面,自民党对这两种情况的编码都是一样的,也就是01110011,因为它们的方向排名在两个像素中都是一样的。

因此,LDPP的代码代表了比自民党更好的特性。因此,LDPP代码用于将图像转换为LDPP映射。该图像的文本特征是由LDPP地图的直方图显示的,在该图中可以将s th bin定义为

n代表一个图像i在LDPP的直方图中的no。因此,LDPP映射的直方图被表示为

现在,为了描绘LDPP的高光或特征,一个深度轮廓图被分离成非重叠的矩形区域,并且在图7中显示的每个区域的直方图都被处理。此外,整个LDPP的突出显示或特征A被呈现为一个连续的直方图序列。

g表示图像中非重叠区域或区域的no。

  1. 主成分分析(PCA)

在局部突出的LDPP特性中,获得了所有经过训练的面部表情深度图像,特征维度变得很高,因此,PCA在这个工作中被采用了尺寸缩小。PCA用于寻找数据中最大变化的方向。考虑到J作为LDPP特征向量的协方差矩阵,在J上的PCA应该找出具有高方差的主要成分。因此,在J上的PCA可以被描述为

E表示代表主成分(pc)的特征向量矩阵。在这项工作中,我们考虑了PCA超过j.图8之后的150个pc,描述了在PCA应用于LDPP特性后,第一个150个pc的前150个特征值。特征值基本上表明了相应的pc的重要性。在图中可以注意到,在最初的几个位置之后,特征值降为零,这表明考虑的维度数量应该可以很好地减少LDPP的特征维度,并且可以忽略原始特性的损失。因此,在PCA之后的维度LDPP特性可以显示为

  1. 广义判别分析(GDA)

从面部表情的深度图像中提取特征的最后一步是应用广义判别分析(GDA),使其特征更加强健。GDA,一种广义的线性判别分析方法(LDA),它主要基于特征值解析问题,使内部类散射最小和内-类散射最大化。GDA首先将输入表示为一个高维的特性空间,它试图通过在特性空间中应用LDA方法来解决这个问题。因此,GDA的基本思想是用一个非线性高斯函数将训练数据映射到高维的特征空间M中,从而在M上应用LDA,因此,GDA的主要目标是最大化以下的方程。

其中G B和G T是这些特征的中间类和全散射矩阵。最后,PCA特性C在GDA特性空间ΛGDA上被投影为

图9显示了训练表情图像的3-D图像,显示了不同类别的样本之间的良好分离,表明了GDA在这方面的鲁棒性。在长度为r的视频中,对每个图像的LDPP-PCA-GDA特性进一步增强为DBN:

  • 用于表情建模的DBN

训练一个DBN由两个主要部分组成,这些部分是预先训练和微调。训练前阶段由博尔特控制的博尔氏机器(RBM)组成。当网络被预先训练时,网络的权重会在稍后通过微调算法进行调整。RBM对无监督学习非常有用,它有助于避免局部最优的错误。使用DBN的一个关键好处是DBN能够从输入数据中提取和选择突出的特性。每一层的RBM都是根据上一层更新的。一旦第一层完成计算权重矩阵,权重就会被认为是第二层的输入,以此类推。这一过程继续对RBMs进行一次又一次的培训。此外,在此过程中输入的内容会逐层减少,因此,最后一层隐藏节点的选定特性可以被认为是当前层的特征向量。可利用对比发散-1(CD-1)的算法对权重层的矩阵进行逐层更新。

图10显示了一个样本DBN,其中三个隐藏的层由不同层的不同数量的神经元组成,比如输入层的100个,隐藏的层数80个,隐藏层的60个,隐藏的层数的20个,输出层的6个表示要训练和识别6个类。在这方面的表达。对于网络的初始化,应用了一种贪婪的层-智能训练方法。一旦第一个RBM的权重被训练,h 1就会被固定。然后,第二个RBM的重量根据固定的h 1进行调整。然后,第三个RBM在以前的RBM的帮助下进行了训练。训练典型的RBM的过程涉及到一些关键的步骤。首先,初始化是在可见层P的偏置向量,一个隐藏层H的偏置向量,一个权重矩阵T被设为零。

接下来,利用eq.(16),计算隐藏层h1的二进制状态,然后用它来重建可见层P recon的二进制状态利用(17)。然后,隐藏层H recon被重新计算,给定P recon

阈值r是通过权重来学习的,以确定网络中sigmoid函数的输出,并计算权重差异

其中L被认为是批量大小。最后,当前的权重变成了之前权重的总和。所有批次都重复这些步骤。当完成RBM过程时,应用一个典型的反向传播算法来调整所有参数的微调。训练前的训练和微调步骤如图11所示。

  • 试验和结果

一个深度数据库是基于85、86的这个工作建立的,它包含了6个面部表情:愤怒、快乐、悲伤、惊讶、厌恶和中立。每一段视频都有40个视频,每个视频由10个连续帧组成。在实验中,四倍交叉验证被应用于生成四组数据集,其中每一组都有30个视频用于训练,另外10个用于测试,而不是通过视频训练和测试。因此,总共有120个视频被用于培训,40个用于测试。

  1. RGB基于成像实验

这些实验是基于从RGB相机获得的视频开始的。基于RGB视频的实验结果在表I-Table VII的混乱矩阵中显示。PCA与HMM可以达到58%的平均识别率,这是非常差的,也是我们所有实验中最低的识别率。然后,PCA-LDA被尝试了,它的平均识别率为61.50%。我们继续在RGB的面部表情图像上应用ICA和HMM,获得了80.50%的平均识别率。此外,LBP应用于“HMM”,达到了81.25%的平均识别率。然后,最不成功的是达到了82.91%,比其他的要好。之后,LDPP的特性与PCA和GDA的特性结合在一起,用HMMs来测试,达到了89.58%的平均识别率。然后,用DBN测试了LDPP-PCA-GDA fea,在RGB的人脸上进行了更好的处理,这可以达到92.50%的平均识别率,这是RGB相机实验中最高的。

  1. 深度基于成像实验

在基于RGB的基于视频的实验之后,实验继续进行到基于摄像机的深度实验中。基于视频的实验结果显示在表VIII-Table XIV的混乱矩阵中。我们可以看到,当PCA与HMM结合时,它可以给我们带来62%的平均识别率,这是在深度面部实验中最低的表现。另一方面,使用ICA和HMM,平均识别率是83.50%。这一结果表明,与PCA和PCA-LDA相比,ICA的性能更好(即:65%)在深度面。接下来,我们尝试在深度FER数据库中使用LBP-HMM和LDP-HMM,发现这两种方法可以分别给我们带来87.91%和89.16%的平均识别率。然后,提出了 LDPP-PCA-GDA的特征,并在深度面上应用了HMMs,达到了91.67%的平均识别率,这是基于HMM的实验的最佳识别率。最后,当提出的 LDPP-PCA-GDA特性应用于DBN时,最高平均识别率达到了96.67%。

  • 结论

面部表情识别(FER)是人类情感表达最自然的方式。在过去的几十年里,它一直是一个非常著名的研究领域,用于计算机视觉和图像处理应用。带系统主要由三个基本部分组成:图像预处理,捕获图像的质量,提高图像从背景,通过消除不必要的细节特征提取,获得的健壮的特性对于每一个表情,和识别面部表情的识别部分视频通过应用特性在一个健壮的模型。面部图像特征对噪音和照明非常敏感,并且经常通过在特征空间中相互融合来产生复杂性。因此,一个系统的性能很大程度上依赖于对好的特性的提取。在本研究中,我们提出了一种从面部表情深度视频中获得情感识别的新方法,研究了一种由LDPP、PCA和GDA组成的新特征提取方法。提出的方法包括对光照变化的容忍,通过考虑最高强度的方向位置和强度的标志,利用像素的显著方向优势,提取出突出的特征。此外,这些提议的功能可以克服传统的自民党特色提取方法无法解决的关键问题,比如在明亮和黑暗部分的反向方向上对边缘像素进行不同的模式。对于深度面,深度面比RGB的一个主要优点是,可以在不透露主体身份的情况下实现深度映射,因为深度面代表的是对相机的距离。因此,一个人的原始身份是隐藏的,这似乎解决了关于数据库中主题的权限的隐私问题。健壮的ldpp-pca gda特性与最先进的机器学习技术、深度信念网络(DBN)结合在一起,用于对表达式进行建模和识别。在此基础上,将该方法与传统方法进行了比较,其识别性能优于传统方法。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

面部表情识别(FER)是人类情感表达最自然的方式。在过去的几十年里,它一直是一个非常著名的研究领域,用于计算机视觉和图像处理应用。带系统主要由三个基本部分组成:图像预处理,捕获图像的质量,提高图像从背景,通过消除不必要的细节特征提取,获得的健壮的特性对于每一个表情,和识别面部表情的识别部分视频通过应用特性在一个健壮的模型。面部图像特征对噪音和照明非常敏感,并且经常通过在特征空间中相互融合来产生复杂性。因此,一个系统的性能很大程度上依赖于对好的特性的提取。在本研究中,我们提出了一种从面部表情深度视频中获得情感识别的新方法,研究了一种由LDPP、PCA和GDA组成的新特征提取方法。提出的方法包括对光照变化的容忍,通过考虑最高强度的方向位置和强度的标志,利用像素的显著方向优势,提取出突出的特征。此外,这些提议的功能可以克服传统的自民党特色提取方法无法解决的关键问题,比如为明亮和黑暗部分的反向方向生成不同的图案。对于深度面,深度面比RGB的一个主要优点是,可以在不透露主体身份的情况下实现深度映射,因为深度面代表的是对相机的距离。因此,一个人的原始身份是隐藏的,这似乎解决了关于数据库中主题的权限的隐私问题。健壮的LDPP-PCA-GDA特性进一步结合了最先进的机器学习技术,深度信念网络(DBN),用于对表达式进行建模和识别。在此基础上,将该方法与传统方法进行了比较,其识别性能优于传统方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值