Facial Expression Recognition Using Weighted Mixture Deep Neural Network Based on Double-Channel Fac

Facial Expression Recognition Using Weighted Mixture Deep Neural Network Based on Double-Channel Facial Images

基于双通道面部图像的加权混合深度神经网络的面部表情识别

摘要

面部表情识别(FER)是机器理解人类情感变化的重要任务。然而,由于个体差异的影响和情感强度的变化,很难提取出与表情变化高度相关的精确的手工制作特征。因此,我们迫切需要能够准确描述面部表情变化的特征。方法:提出一种加权混合深度神经网络(WMDNN),以自动提取有效特征。采用了几种预处理方法,如人脸检测、旋转纠正和数据扩充,以限制面部表情识别区域。面部图像的两个通道,包括面部灰度图像和相应的局部二进制模式(LBP)面部图像,由WMDNN处理。通过对部分VGG16网络的微调,提取了面部灰度图像的表情相关特性,并使用了该网络的参数。VGG16模型在ImageNet数据库上进行训练。LBP面部图像的特征是由一个基于DeepID的浅层卷积神经网络(CNN)提取的。两个通道的输出都以加权的方式融合在一起。最终识别的结果是使用softmax分类来计算的。结果:实验结果表明,该算法能够识别6种基本的面部表情(快乐、悲伤、愤怒、厌恶、恐惧和惊讶)。基准测试数据集“CK+”、“JAFFE”和“Oulu-CASIA”的平均识别精度分别为0.970、0.922和0.923。结论:根据手工制作的特征,提出的方法优于最先进的方法。或者使用一个信道的深度网络。与使用多个信道的深层网络相比,我们提出的网络可以通过更简单的程序实现类似的性能。如果不能收集足够的样本,微调是有效的,可以用一个良好的预先训练的模型来完成任务。

关键词:面部表情识别 双通道面部图像 深度神经网络 加权混合 softmax分类

  • 介绍

面部表情识别(FER)旨在从人类面部图像中预测基本的面部表情(例如,快乐、悲伤、愤怒、惊讶、厌恶和恐惧),如图1所示。这种方法通过分析他们的面部图像,帮助机器理解人类的“意图”或“情感”。由于其在人类异常行为检测、计算机接口、自动驾驶、健康管理和其他类似任务中的应用,它引起了相当大的关注。

对于一个给定的面部图像,需要进行面部检测和旋转矫正等预处理。前者是通过级联分类器来实现的,比如Adaboost和Viola-Jones框架。旋转矫正可以在眼睛等地标的帮助下实现。面部表情是在预处理后从面部区域提取的。几何图形和外观特征是常用的。对于前者,许多面部特征点的位置被提取出来,并将其组合成一个特征向量,它可以编码面部几何信息(例如,角度、距离和位置)。外观特征被用来模拟一个特定面孔的外观变化整体空间分析[5]。运动信息的特征被用于面部图像序列的表情识别。最后,通过对提取特征的参数学习,利用有效的分类器识别不同的面部表情。

尽管最近快速的发展,但由于一些因素,如光照的变化、面部区域的部分遮挡和头部的偏转,面部表情识别仍然具有挑战性。这些干扰可能会影响人脸检测的性能,并降低其准确性。手工制作的功能不再适合于严重干扰的面部表情识别任务。幸运的是,深度学习可能为这些问题提供一个令人满意的解决方案。

卷积神经网络(CNN)最近在模式识别方面取得了快速的进展,特别是在人脸检测和手写的数学表达式识别中。CNN可以通过一个深度网络来自动理解和学习目标的抽象特征。有了更深的层和精心的设计,CNN或任何其他深度网络都能在狂野的环境下完美地实现。

摘要提出了一种基于野生条件下的加权混合深度神经网络(WMDNN)。图2显示了拟议的FER方法的管道。如图所示,一些预处理方法,例如人脸检测,旋转矫正,数据增强,是输入面部图像所必需的。对一个预处理的面部图像的相应的局部二进制模式(LBP)面部图像进行了计算,以聚焦于面部局部信息。LBP是一种常用的纹理特征。它有一些优点,比如计算简单和小的数据量。LBP在人脸识别中得到了广泛的应用。因此,我们认为它可能适合于面部表情识别。不同的深层神经网络被用于不同的面部图像通道。在ImageNet上预先训练的VGG16模型中获得初始参数的VGG16网络,是为面部灰度图像自动提取与表情相关的特性而构建的。对于LBP的面部图像,一个浅的CNN,指的是DeepID的构造,是为自动特征提取而构建的。然后,二进制通道面部图像的输出以一种加权的方式融合在一起,最终由softmax分类来处理融合结果,以预测来自6个基本表情(快乐、悲伤、愤怒、惊讶、厌恶和恐惧)的当前面部表情。

我们的工作重点是面部图像的特征提取和表情识别问题。这项研究的新奇之处在三个方面。首先,面部图像的二进制图像,包括灰度图像和相应的LBP图像,由于其互补性质被用于面部表情识别。其次,利用一种微调策略,充分利用一种经过良好学习的预训练模型(在ImageNet上训练的VGG16模型)。最后,两个通道的输出都被加权融合,以预测一个可靠的结果。我们用三个基准数据集和几个实用的面部图像来评估我们工作的有效性。

本研究的其余部分按如下方式组织。第2部分回顾了有关的相关工作。第3节提供了建议的加权混合深度网络的详细信息。第4节展示了实验结果和分析。结论在第5节中介绍。

  • 相关工作

在这里,我们只回顾一些关于特征提取的研究,这是面部表情识别的一个重要问题。

  1. 基于手工制作特征的面部表情识别处理

面部表情识别任务的重点是从面部RGB(或灰度)图像中提取面部表情特征——面部表情,并通过训练分类器将不同的面部表情识别出来。传统的FER任务依赖于手工制作的特性。三种主要的特征类型是外观、几何图形和动作特性。常见的外观特征包括像素强度、Gabor材质、LBP和面向梯度的柱状图(HOG)。这些特征从面部图像中捕捉到总体的和详细的信息,从而反映出一个人的表情。然而,这些特征是从整个面部区域中提取出来的,而与表情变化高度相关的局部区域,如眼睛、鼻子和嘴巴,则被忽略了。因此,几何特征是由与表情变化高度相关的局部区域所检测到的面部特征点的几何关系所表现出来的,被用于FER任务。此外,不同特征的结合是一个很有前途的趋势。例如,钟等人提出了一个“两阶段多任务框架”来研究FER。通过多任务学习,有效地检测了关键的面部区域,并通过稀疏的编码策略从这些区域提取了特征。之后,SVM被用作识别不同表情的分类器。张等人从面部图像中提取出了纹理和地标性特征。这两个特性是互补的,可以捕捉微妙的表情变化。

这些任务主要涉及静止面部图像。随着面部表情识别视频分析的发展,越来越多的研究人员将注意力集中在运动特性上,如光流法、运动历史图像(MHI)和体积LBP。面部表情识别任务的动态模型也被广泛的研究。Walecki等人使用了一个有条件的随机场(CRF)框架来识别人脸中的不同面部表情和运动单元。他们认为,面部表情的时间变化可以提高FER的准确性。杰恩等人把线性链CRF,隐藏的CRF,以及隐藏层的附加变量结合起来构建了一个动态模型。该模型可以通过相似分析来描述表情变化。

B.基于深度学习的面部表情识别方法

现有的基于手工制作特征的面部表情识别方法展示了有限的识别性能。应该努力手动提取与表情变化相关的有效特征。许多研究最近都在研究基于深度学习的FER问题,考虑到FER在模式识别方面取得的巨大成功,尤其是在野生挑战(EmotiW)中情感识别的发展过程中。对深度学习的全面回顾超出了本研究的范围;然而,读者可以参考9、22。这项工作主要讨论了一些可以用来实现FER任务的深层网络。赵等人提出了“深度信念网络”(DBNs),以自动学习面部表情特征,并且一个多层感知器(MLP)被训练成根据学习的特征识别不同的面部表情。他们认为MLP优于SVM和RF分类器。Boughrara等人提出了一种应用于FER的建设性训练算法。除了MLP之外,CNN还经常被用来提取特征,并对表情进行分类。Lopes等人提出了用于FER的CNN,并报道了它在CK+数据集上令人满意的表现。一种数据增强的策略被提出,以解决CNN训练中缺乏标签样本的问题。一些预处理技术也被用来保持面部图像中的表情相关特征。后来,于等人将一些CNNs合并起来研究FER。这些CNNs通过学习网络响应的集合权重来融合。Kim等人还为健壮的FER训练了多个深CNNs。通过改变网络体系结构和随机权重初始化,深度卷积神经网络委员会被提高了。为了学习一些特定的表情表达的特征,刘等人提出了AU激发的深层网络(AUDNs)是受心理理论激发,即表情可以分解为多个面部动作单元。然而,由于输入面部图像的单一方式,AUDN的识别能力受到限制。莫霍塞尼等人试图通过一个非常深的神经网络来学习改进的用于表情表示的特征。这个网络由两个卷积层组成,每个层后面有一个最大池化层和四个初始层。然而,如果不使用强大的机器(尤其是强大的gpu),这个网络很难进行训练。简而言之,基于深度学习的最近的FER方法比传统的基于手工制作的方法更有优势。然而,只有少数关于深度学习的研究将面部深度图像作为深层网络的输入。

  • 相关工作
  1. 预处理
  1. 人脸检测

人脸检测是FER的关键问题。在面部图像中存在与表情识别无关的过度背景信息,即使图像是从基准的面部表情数据集中选择的。因此,精确的FER依赖于人脸检测结果的准确性,这应该尽可能的排除不相关的背景信息。在目前的研究中,常使用Viola–Jones框架用于面部检测。图3显示了人脸检测的某些结果(用黄色矩形表示)。

  1. 旋转整流

基准数据集和真实环境中的面部图像在旋转中变化,即使是同一主题的图像。这些变化与面部表情无关,因此可能会影响FER的识别精度。为了解决这个问题,面部区域通过旋转变换矩阵矫正的方式来对齐,这个矩阵定义如下:

其中(Lx,Ly)表示面部图像的原始坐标,(Lx’,Ly’)表示旋转变换后的坐标(x,y)。θ表示从一个眼睛中心移动到另一个眼睛中心的线段所形成的旋转角度。水平轴是零。我们使用郑等人提出的DRMF来检测面部图像的双眼,准确度高,速度快。旋转矫正后,所有检测到的面部区域重新调整为72*72,以减少尺寸。更小的面部区域可以进一步加快FER速度,但也可能导致面部信息的丢失,尤其是从面部LBP图像获得的信息。

3)计算面部表情的局部二进制模式

LBP是一个常用的描述符,用来捕获给定目标的纹理信息。一个给定像素的LBP编码是通过比较它的值和邻近的像素的值来计算的。如图4所示,左边部分说明了局部区域的所有像素值,而右边部分则提供了二进制编码的中心像素的LBP编码。

通过LBP编码对像素进行有效编码后,其LBP值可以计算如下:

其中S(*)表示签名函数,N代表相邻像素的数量。g c和g n分别表示中心像素和相邻像素的值。通过计算每个像素的LBP值,可以获得LBP的面部图像。

 

图5显示了一种惊讶表情的面部图像。与灰色图像相比,在LBP图像中,表情相关的面部区域,如嘴、眼睛和眉毛更引人注目。

  1. 灰度面部图像的特征提取

缺乏足够的训练样本限制了基于CNN的FER方法的性能。数据增强可以部分地处理这个问题,因为它可能会过度拟合。因此,通过对在类似任务中获得成功的深层神经网络,进行微调,从面部灰度图像中提取与表情相关的特征。

提出的用于特征提取的深度神经网络是基于Simonyan和Zisserman的VGG16网络。VGG16之所以被选中,是因为它在视觉检测和快速收敛方面的有效性能。图6显示了该网络的主要模块。与传统的VGG16相比,我们的部分VGG16网络通过删除两个密集层来简化。输入数据的维度是1*72*72。然后我们修复前四个块的结构。对于第五个区块,我们通过在其原始名称的末尾添加ft(ft意味着微调)来改变每一层的名称。我们还改变了 Conv5_1_ft的结构。属于这个区块的层的参数如表1所示。只有一个致密层被保留,它的维度被设置为1*500。我们降低了第5块的层学习率,比它们原来的值(0.01用于其他块的层)的学习率降低了10倍(0.001),以保证它们能够学习更有效的信息。最后,通过在ImageNet数据集上训练的VGG16模型的权重来初始化网络的初始部分。修正的线性单元(ReLu)激活在每个卷积层之后被应用。

  1. LBP面部图像的特征提取

据我们所知,在LBP图像上没有经过精心设计的模型。因此,我们构建了一个类似于DeepID的浅CNN模型,它可以自动从LBP的面部图像中提取出与表情相关的特性。图7说明了它的结构,它由一个输入层、两个卷积(C)和下采样(S)层组成,还有一个特征向量(fv)层。64个过滤器用于第一个卷积层(C1)用于输入面部LBP图像,它聚焦于面部表情的详细信息。这一层使用的是7*7的卷积核,并输出64个72*72像素的图像。这一层后面是一个子采样层(S1),它使用可选的最大池化层(内核大小为2*2),将图像缩小到一半大小。一个新的卷积层(C2)执行256个卷积用一个3*3的内核来映射前一层,然后后面是另一个带有2*2内核的子采样层(S2)。在表2中详细列出了浅层CNN中使用的所有参数。然后,输出被赋予一个带有500个神经元的完全连接的隐藏层(fv)。fv层与子采样层S1和S2连接来保证提取特性的比例不变性。处理非线性数据的能力是通过在下采样层S1和S2之后添加Relu激活来保证的。数据增强用于综合增加LBP面部图像的数量。因此,在S层(S1和S2)和fv层之间使用dropout操作(参数被设置为0.5)可以处理过拟合。

D.不同输出的加权融合

图8显示了所提议的加权融合网络。表情相关特征向量fv1是从面部灰度图像中提取出的利用部分VGG16网络采用微调策略,从特征向量。特征向量fv2是从LBP面部图像中提取的,使用的是浅层CNN。每个特征向量都与两个级联的全连接层相连,以减少维度。这些全连接层是对于fv1:fc1_1={s 1,s 2,……s m}(m实验到100),fc1_2={s 1,s 2,……s6}和对于fv2:fc2_1={l 1,l 2,……l m}(m=100),fc2_2={l 1,l 2,……l 6}。不同的面部特征之间的距离会被网络自动捕捉,并通过fc1_2和fc2_2来揭示。此外,fc1_2和fc2_2以加权的方式融合在一起,构造了一个融合矢量,即:fl={p 1,p 2,……,p 6 }。第i个元素pi可以计算如下:

其中α对面部灰度图像和LBP面部图像的贡献进行加权;是通过交叉验证来计算的。使用6维(6种基本表情)的Softmax分类来识别基于融合特征向量的给定表情。

softmax函数产生了一种分类概率分布,当输入是一组多类的逻辑时

其中输出y也是一个在范围(0,1)内的K维实值向量,加和为1。对于给定输入x和j=1,……K(K=6在我们的工作中),y=k的概率可以用一个矩阵形式来写:

其中P(y=k|x)是输入为x,类别为k的概,交叉熵被用作成本函数,它被定义为:

其中z i表示真正的标签,yi代表了softmax函数的输出。在目前的研究中,我们使用基于梯度后代优化算法的反向传播(又称backprops)来最小化Eq.6。

  • 实验结果
  1. 数据集和配置

我们根据Linux平台上的Keras框架来评估我们的FER方法的性能。所有的实验都是使用标准的NVIDIA GTX 1080 GPU(8 GB)、NVIDIA CUDA框架6.5和cuDNN库进行的。为了促进公平和有效的评估,使用了三个基准数据集,由面部RGBD图像组成。对所使用的数据集的描述如下所示。

  1. CK+

这个完整的带注释的数据集包括593个序列,代表了123个主题(男性和女性)的7个表情(幸福、悲伤、惊讶、厌恶、恐惧、愤怒和中立)。我们只使用六种基本的表情,包括快乐、悲伤、惊讶、厌恶、恐惧和愤怒。对于每一个序列,我们选择最后一帧,因为这个数据集中的每一个序列都以一个中立的表情开始,并持续到一个峰值表情。因此,为每个表情选择大约80到120个样本。数据增强(通过使用诸如旋转、平移和倾斜等简单操作),可以为每个表情增加到50倍。最后,用10倍的交叉验证来进行评估。

  1. JAFFE

这个完整的带注释的数据集包括了10个日本女性的213个样本。数据集还包含6个基本表情和一个中立的表情。然而,我们只使用6个基本表情的样本。对于每一种表情,我们选择所有的面部图像(大约30张图片)属于它。数据增强用于将每个表情的样本增加100倍。最后,用10倍的交叉阀值来进行评估。

  1. Oulu-CASIA

从80个实验对象(混合了男性/女性和戴眼镜/不戴眼镜)收集了10 800个标签样本。我们还使用了6个基本表情来进行评估。对于每个主题的每一个表情,都提供了一系列的面部图像。我们选择图像序列的后半部分,然后翻转这些面部图像。因此,每个表情大约有1800个样本。我们不为这个数据集实现数据增强,以避免可能的过拟合。最后,用10倍的交叉验证来进行评估。

除了用于定性评估的基准数据集之外,我们还为定性评估捕获了实用的面部图像。这些图像是使用Kinect 2.0传感器(1920*1080)收集的。这些图片包含了七个表情,包括快乐,悲伤,惊讶,厌恶,恐惧,愤怒和中立的表情。在这项工作中,我们只使用了6个基本表情。从28个实验对象(混合了男性/女性和戴眼镜/不戴眼镜)中收集了1960个标签样本,每个表情有280个样本。数据增强用于将每个表情的样本增加10倍,然后使用10倍交叉验证用于评估。我们在恒定的光照条件下捕获所有样本,但由于严重的遮挡和严重的头部偏转,以测试所提出的方法的鲁棒性。值得注意的是,每个实用的面部图像都被降至480*270,以减少计算量。表3列出了所提议的方法的其他配置,如学习率、学习策略和权重衰减。

在三个基准数据集的基础上,对所提议的方法的收敛性进行了评估,结果见图9(a)、9(b)和9(c)。每个子图都显示了随着时间变化精度(红色曲线)和损失(绿色曲线)的趋势。对于每一个数据集,在40~50批次后,准确性和损耗趋于稳定。

  1. 权重融合分析

我们评估了融合权重α对三个基准数据集识别精度的影响。增加α的步骤是设置为0.1。α=0,在此情况下,只有LBP的面部图像用于FER;α=1,这表示另一个极端情况,它只用于FER的面部灰度图像。如图10所示,蓝色实曲线、绿色链曲线和红色虚线表示的是CK+、JAFFE和Oulu-CASIA数据集的结果。α=1的精度高于α=0,这表明,在FER中,面部灰度图像的贡献比LBP面部图像要大。融合方法在设置α为0.7时达到最高的性能。因此,在目前的研究中,我们手动将权重α设置为0.7。

  1. 对拟定方法的定量评估

图11展示了我们在不同数据集中对6个基本表情处理方法的性能。对于每个数据集,识别结果都是通过混淆矩阵来提供的。对于CK+数据集(图11(a)),我们的方法以非常高的精度识别出了不同的表情(高于0.96),除了厌恶的表情(识别精度为0.94)之外。对于JAFFE数据集(图11(b)),“愤怒”的识别精度高达0.95,而“厌恶”的表情则低于0.9。剩下的四种表情,“恐惧”、“幸福”、“悲伤”和“惊讶”的识别精度约为0.92。不稳定的识别性能是由于“JAFFE”数据集的表情很难区分,甚至是手工操作。对于“Oulu-CASIA”数据集(图11(c)),其性能与“JAFFE”数据集相似。正如上述结果所表明的,所提出的方法可以准确地识别出“愤怒”、“恐惧”和“幸福”,因为它们在外观上发生了巨大的变化。对于“厌恶”这个表情,提议的方法经常将其错误地归为“恐惧”或“悲伤”。我们检查这个问题,发现原因是在选中的数据集中有几个主题在显示不同的表情时是相似的。同时,由于LBP和灰度图像的有效组合,泛化能力得到了保证。一个微调策略可用于进一步提高泛化能力。

在基准测试数据集中,还比较了提议方法和几种最先进的方法。我们还通过计算基于单通道面部图像的识别精度来评估我们方法的有效性。我们将这些方法称为部分方法,其中包括面部灰度图像的部分VGG16,以及用于面部灰度图像的浅层CNN和LBP面部图像。

对于每个数据集,识别结果列在表4中。所采用的方法的参数是根据所提出的原始工作来确定的。我们的方法在两个数据集中都优于使用手工制作特征的方法。该结果验证了基于深度学习的方法在自动提取表情相关特征方面的优越性。阿利等人和里维拉等人手工提取了与表情相关的特征,如HOG和局部方向数模式。与其他基于cnn的FER方法相比,我们的方法也比其他两种使用的方法性能好。例如,我们的方法优于由Lopes等人提出的基于单模CNN的FER方法。我们方法的优点是充分利用了不同面部图像通道的互补性,而另一种方法只使用面部灰度图像。我们的方法也比张等人提出的方法更有效,他提出了一个类似的基于多频道CNN的FER方法,在全局和局部的面部区域(眼睛、鼻子和嘴巴周围的区域)。然而,需要额外的努力来检测面部的地标点,这对于寻找局部面部区域是很有用的。局部面部区域的错误检测可能会减少对张等人的识别精度,而且,在识别不同的面部表情方面,我们的方法比张的方法更准确地识别不同的面部表情。最后,很明显,我们的整体方法比我们的部分方法更有效,而这些方法只会在面部图像上显示出来。此外,由于其能够从给定的图像中提取出有效的特征,使用部分VGG16的微调实现了三种部分方法中最佳的识别性能。对于LBP面部图像,只有浅层的CNN在识别所有三个数据集的不同面部表情方面表现最差。这一结果与对融合权重α的评估结果相符合。同时,我们在每一个CK+数据集的中间帧上对我们的模型进行评估(在CK+中训练),识别精度为96.68%。它揭示了我们处理面部表情动态序列的方法的有效性。

  1. 建议方法的定性评估

为评价该方法的定性性能,收集了实际的面部图像进行评价。部分遮挡被认为是测试我们方法的健壮性。在每个子图中,被检测到的面部区域由一个红色矩形表示。识别结果显示在图片的左上角。红色字符表示给定面部表情的基本事实,而蓝色字符则表示了识别的面部表情,具有一定的识别精度。 

图12展示了一些以高精确度成功识别面部表情的案例。不同面部表情的所有识别精度都高于0.9,即使受试者被笔记本部分遮挡。很明显,这些面部表情有明显的变化。我们可以得出这样的结论:“愤怒”、“幸福”、“惊喜”等面部表情很容易辨认。这一结论与图11所示的三种混淆矩阵所表示的结果是一致的。

图13展示了一些以低识别精度成功识别面部表情的案例,从0.7到0.9。不良的表现是由几个原因引起的,包括外观的温和变化、部分遮挡和头部偏转。例如,在图13(a)中出现的“生气”表情不像图12(b)和12(e)中出现的表情那样明显。因此,识别精度小于0.9。如图13(b)所示,表达“悲伤”的识别精度是0.85,比表情愤怒和快乐的识别精度要低。这一结果与三个混淆矩阵的结论一致。有时,由于其他因素,除了外观的轻微变化,一个明显的表情可能很难识别。例如,“惊讶”的表情是非常明显的,但是它的识别精度只有0.79。这种低识别精度是由于头部的偏转造成的,这可能会导致脸部信息的丢失。此外,部分遮挡可能会在一定程度上影响对给定表情的识别(图13(e)和13(f)),特别是当这些表情的变化不够剧烈时(图13(d))。

图14展示了一些面部表情识别失败的案例,这些表情被表示为未知或错误的标签。只有表情的识别精度大于给定的阈值(我们手动设置这个阈值为0.7,并且可以根据特定的任务改变阈值),用识别的表情和相应的精度表示。否则,未知用于表示FER的失败。此外,在给定的面部图像中没有检测到人脸时,也会使用未知信息。图14(a)所检测到的面部区域太小,无法检测到面部表情,尤其是当这个物体在外观上显示出轻微的变化时。这种情况很难被精确识别,即使没有发生遮挡。例如,图14(b)的主题坚持认为她表现出了愤怒的表情,但我们的方法无法识别面部表情。我们不能通过手动的方法轻易地识别她的表情。有时,我们的方法因为不同的因素是不容易检测到精确的面部区域的,比如大范围的遮挡(图14(c))和恶劣的光照条件。此外,对面部表情的不准确识别是不可避免的,尤其是当被检测到的表情在外表上的变化不是那么剧烈的时候。例如,图14(d)中的主题显示了悲伤的表情,但是我们的方法以0.73的准确性错误地识别为厌恶。

五、结论

本研究提出了一种基于WMDNN的FER方法,可以同时处理面部灰度和LBP面部图像。我们认为,两种使用的图像通道都是互补的,可以从面部图像中获取丰富的(局部的和全局的)信息,并且可以提高识别能力。一种加权融合策略被提出以充分利用从不同图像通道中提取的特征。部分VGG16网络被构造成自动从面部灰度图像中提取面部表情的特征。利用从ImageNet获得的初始参数来训练网络进行微调。由于缺乏基于LBP图像的有效的预训练模型,一个浅层的CNN被构造来自动从LBP面部图像中提取出面部表情特征。随后,提出了一种加权融合策略,将两个特征融合在一起,充分利用互补的面部信息。识别结果是基于通过一个softmax操作的融合特征获得的。此外,处理面部图像需要大约1.3秒,包括用于预处理的0.5 s和0.8 s来识别不同的表情。三个基准数据集的评估验证了该方法的有效性。一方面,我们的方法优于基于手工特性的FER方法。自动提取特征的能力使我们的方法比基于手工制作特征的方法更容易实现,这经常需要首先检测面部地标点的位置。另一方面,通过利用互补的面部信息以加权融合的方式,我们的方法超越了基于深度学习的几种FER方法。我们未来的工作将集中于简化用于加速算法的网络。此外,我们计划将重点放在其他可以用来进一步改善融合网络的面部图像通道上。

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值