Pyramid With Super Resolution for In-The-Wild Facial Expression Recognition

摘要

人脸表情识别是提高自然人机交互的一项具有挑战性的任务。本文主要研究的是一张在野外(ITW)图像上的自动表情识别。ITW图像在姿态、方向和输入分辨率方面存在实际问题。在本研究中,我们提出了一种金字塔超分辨率(PSR)网络结构来解决ITW FER任务。我们还引入了一个先验分布标签平滑(pdls)损失函数,它应用关于FER任务中每个表达式的混淆的额外先验知识。在三个最流行的ITW FER数据集上的实验表明,我们的方法优于所有最先进的方法。

一、介绍

非语言交际在人际交际中起着至关重要的作用。这些非语言信号可以为口头交流添加线索、额外信息和意义。一些研究估计,大约60%到80%的交流是非语言[1]。这些信号包括面部表情、眼神接触、声调和音高、手势和身体距离,其中面部表情是最常用的分析输入。面部表情识别任务旨在从面部图像中识别情感。
在心理学和计算机视觉中,情感可以分为两种模型:离散型和维度连续型[2]-[4]。维度连续模型主要关注激醒和效价,效价的值在-1.0 ~ 1.0之间,而离散情绪理论主要区分快乐、悲伤、愤怒、中性、惊讶、厌恶、恐惧和蔑视等核心情绪。在我们的研究中,我们尝试离散表情识别。
Ekman和Friesen开发了一个面部动作编码系统(FACS)来分析人类的面部动作[5]。然而,这种方案需要训练有素的人员,而且非常耗时。近几年计算机视觉机器学习的成功能够帮助简化和自动化这些程序。我们的研究范围是自动面部表情识别,其中情绪表达是离散模型。
许多研究使用传统的图像处理和机器学习来完成FER任务。Shan等人使用了局部统计特征,称为局部二元模式(LBP),用于独立于人的面部表情识别[6]。Ma和Khorasani在二维离散余弦变换[7]上使用了单隐层前馈神经网络。Lien等将面部特征点跟踪、密集流跟踪和梯度分量检测相结合,检测FACS并计算情感[8]。在[9]中,Zhang等提取了尺度不变特征变换,并使用深度神经网络(DNN)作为分类器。Aleksic和Katsaggelos使用隐藏马尔科夫模型自动FER[10]。
近年来,深度学习(deep learning, DL)已经对图像、语音和自然语言处理等诸多领域产生了重要影响。在Liu等人提出的增强深度信念网络[14]中,多个深度信念网络从图像的小块中学习特征表示,并选择其中的一些进行增强。在[15]中,Liu等人集成了三个卷积神经网络(CNN)子网,并连接输出来预测最终结果。Huang[16]使用了一个自定义的残余块的ResNet架构和后期融合结合的结果,从VGG和ResNet模型。需要看一下参考文献及代码Zeng等提取了图像梯度方向直方图,通过深度稀疏自编码器将其分类[17]。Tozadore等人将情绪分成几个组,以帮助CNN更准确地分类[18]。
尽管实验室数据集取得了这些成功,但近年来野外数据集(ITW)的崛起给研究人员带来了新的挑战。在受控条件下采集的实验室数据集,数据干净、准确、均匀。相比之下,ITW数据集是有噪声的、不准确的和变化的。我们为FER任务概述了以下关于ITW数据集的两个观察结果。
观察1:ITW数据集图像大小不同。实验室数据集图像的大小是可控的,而且几乎是恒定的,而ITW数据集图像的大小从太小到太大不等。图1显示了RAF-DB[11]、[12]数据集(图1a)和AffectNet[13]数据集(图1b)的图像大小分布。这两个选定的数据集是FER任务中最流行的ITW数据集。由于宽度和长度的差异,我们认为两者的平均值就是图像的大小。
在这里插入图片描述
在这里插入图片描述

图1。The image size distribution of the RAF-DB [11], [12] and AffectNet [13] datasets.

在这两个数据集中,小图像出现的频率更高,如图1所示。RAF-DB[11]、[12]和AffectNet[13]数据集的图像大小分布。随尺寸增大而减小。RAF-DB中图像大小的均值和方差分别为193和144,比较大。AffectNet数据集的图像尺寸更大,从130像素到2000像素以上。在图中,我们将所有大于2000像素的图像四舍五入到1000像素的固定值。与RAD-DB数据集类似,图像的数量随着图像大小的增加而减少。第三个最受欢迎的ITW数据集是FER2013[20]扩展的FER+数据集[19]。它还面临着不同图像大小的问题。 不幸的是,当FER数据的作者发表时,原始图像大小信息被忽略了。这一领域的研究大多没有考虑图像大小的问题。他们只是简单地将所有图像的大小调整到相同的大小,例如128 128或224 224。第一个原因是DL框架本身,因为在批处理模式下,每个批处理必须具有相同的输入形状。同时实现不同的输入大小需要更多的代价,而且复杂且计算效率低下。虽然CNN架构对于许多图像分类任务都是成功的,但它是基于这样一个假设,即尽管图像的大小改变了,但网络可以学习自己进行区分。最近邻插值、双线性和双三次算法是常用的缩放图像大小的技术。
观察2:cnn通常对输入图像大小更敏化。虽然CNN在很多与图像分类和分割相关的任务中都是非常成功的,但是这种架构存在一些缺点。CNN的一个缺点是对输入图像的大小很敏感。缩放是一种试图解决这个问题的数据增强技术。在大多数实验中选择的缩放尺度都在0.9到1.2之间,因为超出这个范围的值会使网络退化和损坏。有了全局池化,CNN网络可以支持不同的输入大小,并且用大小增量技术来更快地训练网络 ,使覆盖更容易。尽管这个过程提供了改进,网络仍然对输入大小敏感。因此,用这种输入尺寸训练的网络在处理相同但规模不同的图像时效果很差。图2显示了用VGG16训练RAF-DB和FER+ 在不同的尺度时训练集和验证集损失值。50 50 ,100 100,150 150,再回到50 50 的RAF-DB和48 48个,96 96,192 192,和再回到48 48 FER+的每20epoch的序列。
在这里插入图片描述
在这里插入图片描述

图2。当RAF-DB和FERC的输入大小改变时,训练和验证过程中的损失值(VGG16体系结构[22])。

我们使用来自ImageNet[21]的权重迁移,然后,我们冻结整个CNN架构,除了全连接层。冻结步骤在最小输入图像大小的20个epoch内进行训练。在图像尺寸变化点(epoch 41, 61, 81),训练和验证的损失都显著增加。在epoch 81,虽然输入大小恢复到之前用于训练网络的大小48 48,但由于卷积的特性,损失值仍然增加。卷积层使用内核(大小为3×3、5×5或类似的)来扫描前一层中的“像素”。然后,即使图像是相同的,但在不同的尺度,下一个卷积层学习非常不同的特征;因此,增加内核大小在这里没有帮助。
目前,超分辨率(SR)步骤是在预处理输入,它可以是DL体系结构的一部分。SR方法可能比最近邻插值、双线性和双三次插值等旧算法更好地解决小图像大小的问题。SR任务用于从低分辨率的图像中生成较大的图像,同时试图填补丢失的像素并避免像素变得模糊。从一个低分辨率的图像,例如大小为W H, SR任务被用来制作更大的图像kW kH,其中k>= 2,目的是使新图像尽可能清晰。虽然将图像从高分辨率降至低分辨率是一项简单的任务,但反向却并非易事。由于低分辨率而丢失的像素需要恢复。最近的一些研究集中在这个问题上。Dong等人引入了超分辨率卷积神经网络(SRCNN),这是一种深度CNN模型,在低分辨率和高分辨率的特征图上工作,最终生成高分辨率图像[23]。SRCNN是轻量级的,并优于双三次插值。非常深超分辨率(VDSR)具有与SRCNN相似的结构,但更深入[24]。Shi等人在[25]中制作了优于SRCNN的高效亚像素卷积神经网络(ESPCN)。ESPCN通过处理低分辨率的特征映射和上采样到最终图像来改进SRCNN。Ledig等人使用resblock在[26]中构建SRResNet。Lim等人提出了enhanced deep superresolution network (EDSR)[27]。EDSR是SRResNet的改进版本,去掉了所有批处理归一化层,在提高效率的同时减少了40%的计算量。他们还从基础块设计了一个多尺度网络,取得了良好的效果。Hu等人发布了一种级联多尺度交叉网络,该网络包含一系列级联子网络[28]。近年来,SR的网络不断深化,精度也有了较大的提高。SRCNN是轻量级的,但精度较低,而EDSR需要更多的计算,但可以产生更好的结果。
我们的研究有两个突出贡献。首先,我们提出了一种金字塔超分辨率(PSR)网络结构来处理不同图像大小的ITW FER任务。我们的方法旨在在多个尺度上查看图像,并使用SR进行缩放。在真实世界的FER数据集中有许多小尺寸的图像问题,SR提高了网络性能。在多个尺度上查看图像也有助于网络学习,不仅在小 的局部,而且在输入的全局视图。我们还讨论了损失函数,并将其应用到混乱标记分布已知并可使用的FER任务中。
本文的其余部分组织如下。我们在第二节解释了我们所提出的方法,并在第三节介绍了先验分布标签平滑(PDLS)损失函数。数据集信息在第四节给出。第五节描述了实验结果和讨论。最后,我们在第六部分总结了我们的研究。

Ⅱ、金字塔超分辨率(PSR)网络

我们使用金字塔结构来处理各种图像大小的问题,这被称为PSR网络。图3显示了整体PSR网络架构。
在这里插入图片描述

图3。整体网络架构。

在我们的方法中有六个块,包括空间变换网络(STN)、缩放、低级特征提取器、高级特征提取器、全连接和最终的连接块。STN是二维图像仿射变换的模拟器,用于脸部对齐。缩放块是主要的块,是我们方法的基本思想。关于这个区块的细节将在下一小节中解释。缩放块之后,有几个内部输出,每个输出都是原始输入的一个图像,但在不同的尺度,因此有不同的大小。低特征提取器和高特征提取器是大部分CNN常用的两个部分。所述全连接块包括若干全连接层和漏接层。最后,我们结合所有分支输出与后期融合技术。

A、STN块

STN由Jaderberg et al.[29]和Dai et al.[30]引入。STN的主要思想是通过学习transformer来对齐输入。该模块由三部分组成:定位网、网格发生器和采样器[29]。定位网络有几个卷积层,最后,一个完全连接到输出θ的层,其中θ是一个矩阵大小为2 × 3,表示二维图像中的仿射变换。网格生成器然后接受θ并生成网格,最后,采样器用这个网格并生成输出图像。输出图像来自输入图像,带有旋转、缩放和变换操作符。该块的输入和输出是相同大小和相同通道数的图像。
与实验室里的图像不同,ITW图像与头部姿态方向有很大的不同。我们添加STN块来帮助网络学习对齐人脸,使其更容易识别。
我们的实现细节遵循之前发表的论文[29]。表1显示了该块的内部层的详细信息。
在这里插入图片描述
对于卷积层,参数为输入通道、输出通道、核大小和步幅。maxpool2d层需要内核大小和步长。对于线性层,只需要两个参数:输入节点数和输出节点数。定位完成后,将特征图扁平化,并通过全连接层。我们的算法根据输入的大小动态地计算特征地图的大小。因此,该块是自适应的不同大小的输入图像

B、缩放块

缩放块是我们架构中的主要块。这个块的主要思想是以不同的尺度从小到大查看输入图像。超分辨率是用来提高图像尺寸的。在许多cnn中,为了保证存储和计算的效率,输入图像保持相同的大小。为了利用输入图像的最佳信息,它们以可达到的最大尺寸传递到网络。输入大小可能受到计算限制和基于每个数据集的限制。当通过相同大小的图像时,就像第一次观察到的那样,它们中的许多是低分辨率的,并使用一些传统的算法进行放大。然而,我们的方法先将它们缩小,然后再使用SR技术将它们放大。这一区块是为了在低分辨率图像中查看整体上下文,同时考虑高分辨率图像的原始特征。
在伸缩块中,网络分支到三个或更多的子网。所有的子网络使用相同的输入图像,但规模不同。最新分支接收到的原始输入图像具有最高的网络分辨率。由于计算量的限制,在图像分类领域的研究中,大多数都是使用100到最多312之间的输入图像。对于更大的输入尺寸,更高的分辨率并不会改善性能。对于批处理模式&#x

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值