HEU情感数据集学习笔记

HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition in the Wild

摘要


        HEU Emotion共包含19004个视频片段,根据数据来源分为两部分。第一部分包含从Tumblr,Google和Giphy下载的视频,包括10种情绪和两种形式(面部表情和身体姿势)。第二部分包括从电影、电视剧和综艺节目中手工提取的语料,包括10种情绪和三种模态(面部表情、身体姿势和情绪言语),拥有9951个受试。

一、introduction

      目前的自动情感识别系统仍然停留在单模态,缺乏构建智能人机交互所需的所有情感和社交技能。主要有两个原因:一方面,操作环境不可控,例如复杂的背景、光照变化、相机角度的变化、用户的年龄、种族和性别。另一方面,情感的复杂性和多样性使得实现智能人机交互具有挑战性。

        许多流行的情感识别数据库是在受控的实验室环境中收集的。受试者被要求在实验场景中做出某些表情。这些刻意产生的表情并不是有形的情感。此外,还有一些局限性,包括一个普通的背景,一个单一的光,和几个主题。因此,基于这些数据库开发的情感识别系统的实际应用效果并不令人满意。随着各种社交平台和网络的兴起,每天有数百万用户上传和分享他们的照片和视频剪辑。这些视频的拍摄场景是自动情感识别系统的真实的应用环境。虽然有些视频片段是从电影中剪辑出来的,但它们比以前来自实验室条件的数据库更接近真实的世界。

        近年来,随着越来越多的户外情感数据库[37,26,9,15]被收集和注释,对真实的世界中情感识别的自动算法的研究也逐渐增多。这些数据库包含不同的背景和大量的被测试者。然而,大多数数据库是面部表情和单一的静态图像。因此,研究者很难利用其他的情绪表达渠道来了解情绪变化。情绪变化的过程通常是连续的,并且与时间相关。因此,动态表情序列的信息在捕捉情感时比单个静态图像的信息更全面、更具体。心理学教授Mehrabian指出,表情、语音和文本分别占情感互动的55%、38%和7%[36]。表情分为面部表情和身体姿态。面部肌肉的一个或多个运动产生面部表情。目前,通过使用人脸图像(在RAF-DB [26]数据集上超过70% [12,14]),已经实现了自然环境中基本情感的良好分类准确性。身体姿态被认为是人类情感的另一种非语言交流方式,通常被理解为头部、四肢和身体其他部位的运动变化。相对于采集人脸,低分辨率采集设备足以获取姿态。作为情感识别的完美补充,身体运动数据的分析最近变得越来越普遍。语音是情感识别的另一个关键渠道。人类可以通过听说话,感知说话人的语气词和声调来捕捉对方的情绪状态。据报道,一些情绪(如悲伤和恐惧)更容易从音频信号中区分出来,而不是从视觉外观中区分出来[8]。情感是通过多种渠道表达的。从真实的世界中收集到的情感很难通过一个渠道进行分类。在单模态研究的情况下,信息往往是不够的,并且分类结果容易受到各种外部因素的影响,例如面部或身体遮挡以及噪声。McGurk效应[34]揭示了当大脑感知时,不同的器官会自动无意识地组合起来处理信息。信息的缺失或不准确会导致大脑对外部信息的理解出现偏差。这就是为什么多模态技术最近在自动情感识别中变得越来越普遍的原因。

        如第2节所述,在过去的几十年里,许多组织都在努力建立多模态情感数据库。但仍存在三个主要问题:(1)自然状态下的多模态情感数据库样本数量较少。与实际应用的巨大需求相比,存在很大差距。(2)这些数据集中的受试者数量仍然较少,如表1所示,最多为527例受试者。受试人数的限制阻碍了身份无关情绪分析和识别的研究。(3)表1中自然状态下的情感数据库的语言是单一的,并且一个数据集中的受试者的文化背景是相同的。文化差异可能导致情感表达的差异。基于这些数据库开发的系统实际应用效果会因用户属性的不同而有很大差异。

        为了克服多模态情感数据库中存在的上述问题,我们在户外环境中收集并标注了一个相当大的多模态情感数据库(HEU Emotion)。HEU Emotion的优点如下:

        -首先,它是迄今为止在自然状态下收集的最大的多模态情感数据库。它包括从不同网站(Tumblr,Google,Giphy)下载的16569个视频剪辑,以及从电影,电视剧和现场视频中选择的2435个语料库。

        - 第二,HEU Emotion有9951名受试者。被试数量的大量增加可以显著降低身份信息对情感分析和识别的影响。与表1中所示的现有多模态情感数据集相比,HEU情感具有最大数量的受试者。

        -最后,有许多来自不同文化背景的发言者,如中国人,美国人,泰国人,韩国人等,在大多数情况下,他们说自己的母语。因此HEU Emotion是一个多语言的情感数据库。此外,为了丰富情绪的类别,我们在基本的七种情绪之外,还注释了三种情绪(失望、困惑和无聊)。

二、related work

表1现有多模态情感数据库概述:Subs表示数据库中收集的受试者数量;Cond表示收集环境;Samples表示语料库数量;Language表示数据库中使用的语言;Data表示记录的多模态数据类型;Dist表示分类情感状态的数量。

        为了将研究扩展到真实的环境中,许多研究机构已经创建了真实的环境下的情感识别数据集。FER2013是ICML 2013面部表情识别挑战赛的数据库。RAF—DB [26]数据集是一个真实世界的面部表情数据库,目前被广泛使用。然而,这些数据集是静态图像,忽略了动态的情绪变化,只关注面部表情。本节重点介绍包含动态情绪变化和多种情绪模式的数据集。

        FABO [16]数据库使用两个摄像头同时捕捉面部表情和手势。拍摄角度是正的,背景是蓝色的静态设置。同时,为了减少光照变化的影响,研究人员构建了人工光源环境。受试者没有直接暴露在光源下。在拍摄时,研究人员要求受试者做出特定的情绪,并执行不同的面部表情和上身姿势的组合。该双峰数据库包括23名受试者,11名男性和12名女性,年龄在18至50岁之间。他们来自不同的国家和地区,如欧洲、中东、拉丁美洲、亚洲和澳大利亚。研究人员拍摄了九种情绪:愤怒,害怕,惊讶,快乐,厌恶,无聊,担心,悲伤和不确定。

        RAVDESS [31]包括60个演讲和44首歌曲的情绪(包括恐惧,悲伤,惊讶,高兴,愤怒,厌恶和中性),这是由24个专业演员录制的。每个演员录制的作品有三种形式:视听(AV)、视频(VO)和音频(AO)。录音是在专业的录音棚录制的,透镜中只能看到演员和绿色屏幕。为了保证摄像机能够捕捉到演员的头部和肩部,摄像机的高度随时都在调整。工作室提供全光谱照明,由天花板荧光灯和三个28W 5200k CRI 82灯泡照明。这些设置可以最小化面部阴影。

        RAMAS [40]是Neurodata Lab LLC收集的第一个俄罗斯多模态情感数据库。10名半专业演员(5男5女,年龄18-28岁,俄罗斯本地人)参与了数据收集。收藏家们认为,职业戏剧演员可能会使用刻板的动作模式。因此,半职业演员更适合在情绪化的情况下表演动作。半职业演员在设定的场景中表达了一种基本情感(愤怒、悲伤、厌恶、快乐、恐惧和惊讶)。在记录过程中收集了各种数据,如音频、动作捕捉、特写和全景视频以及生理数据。

        Sapinski等人[44]发表了一个波兰语的情感数据库,包括三种形式:面部表情,身体动作和手势,以及语音。录音由16名专业演员(8男8女,年龄25至64岁)在新剧院的排练室录制。记录在安静、光线充足的环境中进行,背景为绿色。为了保持演员的脸在画面中,并补偿情感表达过程中的任何动作,使用了中等镜头。在Kinect记录的情况下,整个身体都在框架中,包括腿。

        NNIME[15]这是一个典型的口语对话记录。来自国立台湾艺术大学戏剧系的44名受试者(24名女性和20名男性)参加了录制。每两个人被分成一组(7对女性,10对女性,5对男性)。每组被要求自发地表演一个大约3分钟的短场景。整体表现是为六种预先指定的情绪(愤怒、悲伤、快乐、沮丧、中立和惊讶)之一提供证据。

        SEMAINE [35]是由McKeown等人收集的人类受试者和计算机会话代理之间的情感会话的多模态数据库。高质量的记录是由5个高帧率,高分辨率相机和4个麦克风制成的。共记录了150名参与者和4名敏感人工智能(SAL)角色的959次对话,每次持续约5分钟。每个片段由6-8名评分员追踪到27个相关类别。此外,有四个主要类型的基本情绪,认知状态,互动过程分析和有效性。

        SAVEE [23]是4名年龄在27岁至31岁之间的男性受试者的录音,包含7种基本情绪的共480个样本。它采用归纳法收集数据。当受试者在监视器上观看视频剪辑和文本时,记录他们的表情和录音。eNTERFACE'05 [33]在实验室环境中录制了视听剪辑。来自不同国籍的42名受试者参与了录音,录音语言为英语。深灰色背景用于采集,捕获的图像仅包含头部。

        RML [50]由瑞尔森实验室收集,包含六种基本表达的720个样本。参与录音的八名受试者讲各种语言。录音是在一个无噪音的气氛中进行的,有一个简单的灰绿色背景和一个数码相机来捕捉视频。

        IEMOCAP [3]是由南加州大学的帆船实验室收集的一个动作、多模态和多峰值数据库。它包含大约12小时的视听数据,包括视频,语音,面部动作捕捉和文本转录。参与者进行即兴表演或脚本场景。IEMOCAP被许多注释者注释为类别标签,如愤怒,快乐,悲伤,中性和维度标签,如效价,激活和优势。

        Yu等人[52]从中国电影和电视剧中收集了721个短语,包括4种情绪(愤怒,快乐,悲伤和中性)。

        《安全》[6]和《虚构》[49]关注的是异常情况下的极端情绪。与其他数据库不同的是,这两个数据库的情绪分为四类:恐惧、消极情绪、中性情绪和积极情绪。

        [41] MELD是从QuestionLines数据集[4]演变而来的。QuestionLines只包含电视剧《老友记》中的对话。MELD是一个多模态情感对话数据集,包含音频,视觉和文本模态。由于数据仅来自一部电视剧,参与人数有限,84%的会话由6位主演获得。

        CHEAVD [27]包含140分钟的电影、电视节目和脱口秀中的情感片段。共有26种非典型情绪状态,以及各种情绪标签和虚假/压抑的情绪标签。然而,在最后的实验中使用的情感类别只有六个基本情绪。选择。而且,这个数字异常不均衡,中性:惊讶:厌恶= 19.6:1.6:1。

        CHEAVD 2.0 [28]是CHEAVD的扩展。除了六种基本情绪外,它还增加了担忧和焦虑。与[27]一样,数据库也有一个非常不平衡的样本数量,中性:惊讶:厌恶= 10:1.2:1。此外,从给定基线的混淆矩阵中可以看出,除了愤怒,幸福和中性之外的其他类别都很难识别。特别是惊讶和厌恶的识别准确率为零。

        AFEW [10]是A.自2013年以来,它一直被用作户外情绪识别挑战赛(Emotion Recognition in the wild Challenge)的数据库。它是从54部好莱坞电影中捕捉到的,包括1,809个视频片段,其中包括各种头部姿势,遮挡和不同的照明。AFEW是一个包含七种基本情绪类别的多模态数据库。鼓励研究人员使用各种形式,如面部表情,姿势和音频信号。由于组织者的封锁,只有773个训练集样本和383个验证集样本是公开的。

        表1总结了分类模型中审查数据库的特征。

        从以上回顾可以看出,许多视听数据库是在实验室环境中收集的。非实验室数据库SAFE和Fiction专注于极端表达,而不是传统的情感识别。CHEAVD和CHEAVD 2.0是从电影和电视剧中收集的,但它们的样本只有中文。AFEW仅提供英文样本。针对目前自然环境下情感数据集规模小、语言单一、各类情感样本分布不均匀等问题,我们建立了一个大规模、多语言、相对均衡的数据库HEU Emotion。此外,我们的高浓缩铀情感记录在自然环境中。虽然它包含了很多噪声,但它更符合实际应用环境,有助于进一步提高情感识别系统的泛化能力和鲁棒性。

三、HEU情感数据集

        HEU Emotion是目前最大的基于视频的多模态情感识别数据库。为了使基准测试更接近实际应用,我们通过从Tumblr、Google和Giphy等搜索引擎中检索与情感相关的关键字下载了相关视频片段。同时,视频片段是从电影、电视节目和综艺节目等在线视频中手动选择的。HEU情感部分1(HEUpart1)的数据包含大量非个人信息,如绘画,图形或非人类物体,需要通过自动过滤器过滤掉。在HEU情感部分2(HEU-part2)中手动提取的所有剪辑都包含字符,因此可以直接标记。图1显示了数据库构建的过程,图的右侧给出了每种颜色表示的信息。详情将在以下章节中介绍。

 3.1 收集数据

        首先,我们创建了一个情感关键词的查询列表(例如,紧张、厌恶、快乐、悲伤、恐惧、愤怒、害怕、惊讶、无聊、困惑、失望、沮丧等)。三个搜索引擎(Tumblr,谷歌,Giphy)查询这些情感相关的标签,和视频的URL存储在一个文档中。然后,使用自动下载器批量下载获得47450个原始视频剪辑。由于我们的查询词返回的结果中有很高比例已经包含了中性表达视频,因此没有进行单独的查询来获得额外的中性表达。HEU-part2中的3500多个原始片段由5名工作人员挑选。手动编辑的视频遵循以下规则:(1)在每个视频中,表演者只有一个表情。也就是说,只出现一个表达式,其他表达式尽可能不出现。(2)视频中的镜头要尽量保持在表达情感的演员身上,避免来回切换。(3)一个长视频可以分为几个部分。然而,每个部分都呈现出不同的情感表达阶段。(4)多个表演者可以被包括在同一帧中,但是在大多数情况下都试图表达相同的情感

3.2 提取帧

        在获得视频片段后,我们对视频进行了相关的处理工作。使用OpenCV的FFmpeg从每个视频中获取JPG图像。帧速率是根据每个视频的帧速率而不是设置固定的帧速率。一般来说,人类可以在10秒内完成情绪变化的整个过程,并达到一个高峰。因此,为了减少冗余信息和计算负担,我们重新编辑了长度超过10秒的视频。

3.3 基于行人检测的自动滤波

        考虑到从互联网上获得的视频数据包含非人类对象,因此使用YOLO V3 [42]对视频帧进行过滤。其中,框架被定义为可以检测到人的立体框架。将包含有效帧的剪辑定义为声音剪辑,并直接删除无效剪辑。我们从YOLO V3定位的bbox下的原始图片中挑选出字符。当视频中有多个角色时,情绪往往由占据较大面积的角色表达。我们根据给定bbox的位置计算每个字符所在的框的面积。然后,为了确保图像中只有一个人物,在行人检测之后呈现具有最大面积的人物。由于直接获得的图像大小不同,我们进行了归一化处理。由于原始图像的大小不规则,我们无法找到一个合适的大小来适应所有的图像,所以我们把图像放在正方形。此外,原始图像的背景一般比较复杂,因此,我们没有在原始图像上扩大切割位置。相反,计算长度和宽度之间的差异。之后,在小边的两侧扩大二分之一的差异,以获得矩形图片。归一化结果如图2所示。

 3.4 获得面部表情数据

        在人脸检测部分,我们使用了两种高效的人脸检测方法MTCNN [53]和libface-detection(libface)1,以达到相互补充的效果,减少漏检。图3显示了libface检测到的图像,其中只包含人脸。MTCNN检测到的图像长宽比不均匀。为了便于模型的训练,对检测到的图像进行了如下处理。根据给定的检测框位置,分别计算两侧的值。较小侧的起始位置不变,根据较长侧的长度和起始位置计算结束位置。

        其中bbox是检测到的面部的坐标。Bbox[0][0]为图片的x轴和y轴的初始位置; Bbox[0][1]为x轴的初始位置和y轴的结束位置; Bbox[1][0]为x轴的结束位置和y轴的初始位置; Bbox [1] [1]为x轴和y轴的结束位置。因此,h是y轴方向的长度,w是x轴方向的长度。MTCNN检测到的图像不仅包括脸部,还包括头部。样品如图4所示。此外,HEU-part1的数据更复杂,人脸检测基于[42]检测到的图像。HEU-part2中的数据是理想的,并且它们直接在JPG图像上被检测到。在实际应用中,libface对各种面部角度和遮挡都有较好的识别能力。但许多图像被误检测为局部器官(如鼻子、耳朵、手等)。最终的人脸图像主要是MTCNN检测到的人脸图像。当MTCNN无法检测到任何人脸时,使用libface检测到的数据,手动删除不良图像。

3.5 数据集标注

        下载HEU-part1时使用的关键词取决于用户在上传时注释的信息,这与真实的情绪状态并不完全一致。这意味着所有数据都需要重新标记。注释近45000个视频是一项具有挑战性且耗时的任务。

         在手工裁剪HEU-part2的过程中,收集者被要求根据情绪状态剪切视频。但人的情绪判断存在偏差,每个人对情绪的敏感度不同。为了避免个人判断造成的错误,注释工作由多位注释者共同进行。注释过程是完全盲目和独立的。标签工作人员一共有15人,在标签工作开始前,他们接受了为期一周的情绪心理学教育,包括每个情绪类别的定义、主要特征和一些例子。15名注释者独立地标记了所有视频片段,并将其分为10个类别中最明显的类别。我们对注释数据进行计数,通过投票对其进行标记,并选择投票数最高的数据作为其标签。如果几个类别的票数非常相似。其中一个类别似乎没有明显高于其他类别。我们把这个片段作为一个混合的情感放在另一个类中。由于时间和劳动力有限,没有对复合表达进行任何进一步处理。

四、统计数据

         HEU情感数据库包含19004个视频片段,分为HEU-Part 1和HEU-Part 2两部分。HEU-Part 1分为三个部分,80%用于培训,10%用于验证,10%用于测试。表2和表3列出了每个类别的具体数字。表2显示了HEU-Part 1的所有数据,而表3仅显示了HEU-Part 1中可以检测到人脸的数据。从表2和表3的对比中可以观察到,在一些片段中,人脸很难被检测到,或者太小了,无法判断自己的情绪。然而,角色的情绪状态仍然可以通过他们的身体姿势来判断(比如生气时挥舞手臂,害怕时双手托着头,高兴时跳舞等)。这说明了身体姿势情感数据的必要性。视频片段中的人物包括亚洲人、非洲人和高加索人。我们使用DEX[43]来估计面部数据中的年龄和性别。根据结果,67%的人脸是男性,女性占33%。通过年龄估算,男性面部平均年龄为34-67岁,女性面部平均年龄为28-94岁。具体地,图5A中描绘了年龄范围[0,20)、[20,30)、[30,40]、[40,50)、[50,60]、[60,-]中的脸数的直方图。

        我们对HEU-part2使用了相同的统计方法。借鉴AFEW的划分,HEU—part2被分为两部分,65%作为训练集,35%作为验证集。HEU-part2的帧都包含面部表情,类别的统计数据如表4所示。还使用DEX对面部数据进行了年龄和性别估计。男性占58%,女性占42%。详细的年龄分布如图5b所示。根据DEX估计,这两个数据集都是男性占多数,年龄集中在[20,50]。结果可能会受到用于训练模型权重的数据集的影响。实际的性别和年龄分布可能比图5所示的更平衡。此外,我们使用dlib中的人脸识别程序进行了人脸匹配[24]。HEU情感方案中包括的受试者人数为9951人,其中高浓缩铀第一部分为8984人,HEU第二部分为967人。

        我们还比较了HEU-part1与CHEAVD2.0和RAF-DB,如图6所示。RAF是目前应用较为广泛的真实的环境下的人脸表情数据集,数据量比较大。CHEAVD2.0是一个大型的多模态情感数据集。我们将这两个数据集与HEU—part1进行比较。除了高兴、愤怒和惊讶之外,其他情绪的量与RAF—DB相似或远高于RAF—DB。在这三个数据集中,快乐和中性情绪的片段更多。这表明,不均匀分布是大多数数据集的共同问题。HEU—第一部分的类别分布比其他部分相对更平衡。HEU—part2的数据来源与AFEW的数据来源相同。在图7中,HEU-部分2与AFEW和CHEAVD进行了比较。我们只知道CHEAVD训练集和测试集的情感类别,因此图7显示了CHEAVD的训练集和测试集的总和。从图7中可以看出,HEU—part2的所有类别的数量都高于AFEW。在CHEAVD中,中性情感数据约占总样本的一半,其他难以识别的情感数据的数量(厌恶、恐惧等)是最小的。虽然某些类别的数量小于CHEAVD,但HEU—part2数据相对更平衡,特别是当只评估七种基本情绪时。HEU Emotion数据集中的面部表情包含多个视角(顶部、底部和水平)、多个角度(正面、侧面)、部分遮挡和多个分辨率。有些视频中的表情强度会发生变化;例如,表情从没有情绪开始,然后逐渐增加情绪到峰值。图8显示了上述表达式的一些示例。

        

五、 基线

        在本节中,为HEU情感数据集的多模态情感识别提出了四个基线。视频处理流程以视频为输入,提取单模态特征,通过多种融合方法最终完成情感识别。流程图如图9所示。

        我们设计了四个具有挑战性的基准实验。(1)为了加快研究从实验室条件到真实的环境的转变,我们对小型流行CK+数据集进行了比较实验[32]。(2)为了验证该数据库的有效性,用AFEW数据集进行了对比实验,给出了人脸表情识别的基线。(3)HEU情绪使用深度学习方法训练测试。此外,也给出了身体姿势情感和言语情感的基线。(4)最后,对三种模态进行多种融合,得到多模态情感识别的基线。

5.1 多模态注意力机制

         我们的数据集包含多个数据模态。对于一个视频来说,并不是每一种类型的数据都对最终的判断起到积极的作用。人类情感的判断主要依据面部表情,其次是语音语调。身体的运动也能在一定程度上辅助判断,但它比其他两种信息更糟糕。总而言之,数据集中的数据对最终情感类别的判断所占的比例是不同的。我们提出了一个多模态注意力模块(MMA),以自适应地调整不同的模态特征的比例,根据其对分类结果的贡献。多模态注意模块的具体结构如图10所示。        

        首先,我们拼接每个模态的视频级特征,以获得多模态注意力模块X ∈ RD×C的输入注意力,其中D表示视频级特征的维度,C表示输入模式的数量,称为通道数。我们使用全局平均池化操作,沿着视频级特征的维度进行沿着压缩,将每个一维特征转化为一个真实的数,这个数在一定程度上具有全局感受野,代表了每个通道上响应的全局分布。注意,通道数C是恒定的。 

        

        其中yc表示通过第c个通道上的全局平均池化获得的真实的数。Xi c表示第c个通道上的第i个元素。然后,我们使用两个全连接层(FC)来建模通道之间的相关性。在第一个全连接层中,我们将通道的维度增加到输入的7倍。在被激活函数ReLU激活后,我们通过所述第二全连接层将所述沟道减小到所述原始尺寸。两个FC和ReLU的使用使得非线性更好,可以更好地拟合通道之间的复杂相关性。一般来说,多模态融合中的模式数量不是很大,为了提高网络的学习能力和信息处理能力,对通道进行了升级。此外,它不会带来太多的参数和计算。然后使用Sigmoid函数将得到的注意力权重归一化到0和1之间。因此,Sigmoid函数的输出表示特征选择后每个通道的重要性。

其中W1 ∈ Rc × 7c表示第一全连通层的参数,其中7是缩放比。W2 ∈ R7c × c表示第二全连通层的参数。通过学习网络的参数W来显示建模通道之间的相关性。然后,通过乘法加权先前的特征通道,在通道维度上重新校准原始特征。

        其中uc表示重新校准之后第c个通道上的特征。

        最后,将特征选择后的特征图压缩成一个向量,并送入分类器。

        讨论MMA的灵感来自通道注意模块SENet [20]。主要区别在于SENet在特征提取过程中捕获每个通道的重要性。这里的输入来自不同卷积核的卷积结果。MMA的输入是来自不同模态的特征,并且每个特征被拼接为通道。然后将多模态中各模态对最终结果的影响不同的问题转化为对各通道之间的相关性进行建模。通过自动学习模式得到各特征通道的重要性。然后,根据这个重要性,有用的功能被增强,而对当前任务无用的功能被抑制。另一个区别是,SENet是在二维特征图上平均池化的,而我们的输入特征是多个一维向量,因此我们的全局平均池化是在一维向量中进行的。

5.2 和CK+ 数据集对比

        在从实验室环境到真实的世界的实验中,分别制作了HEU-Emotion的两个部分。我们使用最流行的数据集CK+进行了比较实验。首先,对CK+数据集进行人脸信息提取。然后将数据集以4:1的比例分为训练集和测试集。此外,每个文件夹的最后五张图片被选为样本。将HEUpart 1的验证集和测试集合并在一起作为测试集,训练集和测试集是4:1。HEU-第2部分的比例保持不变,为0.65:0.35。同样,每个文件夹的五张图片被认为是一个实验样本。考虑到相邻帧之间的差异较小,采用以下采样方法:如果总数小于5,则全部选中;如果小于10,则选择前5张;如果小于14,则每隔一帧选择一张;如果小于18,则每隔两帧选择一张;剩余间隔为3帧

        在基线实验中,使用了通过传统机器学习方法提取的手工特征。对于局部二值模式(LBP)[1],图像被调整为128 × 128像素作为输入,然后被划分为8 × 8像素块。LBP描述符应用统一模式并为每个图像生成3,776维特征向量。方向梯度直方图(HOG)特征[7]也使用128 × 128像素的图像作为输入。HOG特征利用基于形状的分割将图像划分为四个8 × 8像素单元的16 × 16像素块,没有重叠。通过设置9个bin,我们得到了每个图像的8,100维HOG特征向量。对于Gabor小波[30],我们将人脸图像调整为16 × 16像素,并在16个空间尺度和8个方向上实现了128个Gabor滤波器。将每幅图像分成10 × 10的块,每个块用128个滤波器进行滤波,最终得到12,800维的特征向量。在使用LBP、HOG和Gabor小波进行特征提取后,使用支持向量机(SVM)[48]作为分类器进行分类

         从表5中数据的第二列可以看出,提取的LBP、HOG和Gabor特征在面部数据上是有效的。当它们用于HEU Emotion数据集时,准确率仅超过20%,最高为35.88%。HEU Emotion表现不佳的主要原因是实际条件比实验室环境更具挑战性。光照变化和部分遮挡问题增加了识别的难度。此外,研究结果还表明,在实验室环境中开发的方法转移到真实的条件下的有效性不能得到保证。为了进一步发展情感计算的实际应用,有必要在真实的环境中建立大规模的情感数据集。HEU Emotion作为目前最大规模的动态、时态多模态情感识别数据库,无疑将推动情感识别的发展。

5.3 交叉数据及实验

        深度学习已经在机器视觉、语音识别、自然语言处理等人工智能的多个应用领域取得突破。近年来,在情感识别任务中提出的方法也是基于深度学习的。从EschertiW Challenge [13,21,29]的最佳论文可以看出,深度学习方法在解决真实的环境中的情感识别问题方面非常有优势。为了证明HEU情感数据集的有效性,我们将其与AFEW数据集进行了比较。对于深度学习方法,我们采用经典的卷积神经网络模型,如VGG [47],Resnet [19],Densenet [22]和SE-inception [20]作为特征提取网络,其中VGG是2016年挑战赢家者论文中的最佳模型[13]。HEU Emotion是一个序列任务的情绪识别数据集。在对单帧进行特征提取后,我们使用GRU对特征进行进一步处理,最后将其发送到分类器以获得片段的情感类别。在训练之前,人脸图像被调整为229 × 229像素。在训练阶段,进行随机裁剪和水平翻转等图像数据增强操作,将输入图像随机裁剪为224 × 224像素。从视频序列中随机选择16张图片作为训练过程的输入。如果整个视频序列小于16,则复制最后一个画面,直到满足16个画面。在验证和测试阶段,选择了视频中的16个连续帧。如果帧的总数大于16,则将其作为第二组,依此类推,直到选择完整个图片,并且相邻组中的8帧重叠。当采用多组输入时,将其输出的平均值送入softmax以给予最终结果。因此,一个视频只能在一个情感标签中使用。

        当使用HEU Emotion直接训练模型时,收敛速度特别慢。考虑到使用预训练模型可以加快收敛速度[25,38,39],我们在流行的非实验室静态表情数据库FER 2013 [15]中训练卷积神经网络的模型以获得参数。当训练AFEW和HEU情感数据集时,除了分类器的参数之外的所有参数都被加载,然后全局微调。该网络使用500个epoch进行训练,并使用16的批量大小。由于使用了预训练模型,因此初始学习率设置为0.0001。优化器使用具有固定学习率的随机梯度下降(SGD)。

        第4节描述了HEU情感数据集的划分。根据AFEW 2019数据集的分布情况,将AFEW数据集分为训练集(773)和验证集(383)。表6的第二列是在AFEW数据集上训练的验证集的结果。可以看出,经典网络是有效的面部表情特征提取。特别是,VGG提取的特征被送入GRU,以达到50.28%的最高准确率。相同的算法在我们的HEU Emotion数据集上有不同的结果。对于HEU-part1,它达到了47.53%,验证集和测试集的正确率分别为47.53%和41.19%。HEU-part2的准确率为51.03%。结合其他方法,与AFEW数据进行比较,可以看出HEU情感数据集是实用的,HEU情感的数据样本复杂度更高。HEU Emotion是一个较具挑战性的数据库,基于它提出的情感识别算法可以更接近真实的应用。

        

         表7显示了交叉数据集测试的实验结果。我们使用VGG+GRU,表6中显示的最有效的方法,在数据集上进行实验。表7中的前两列显示了用于训练的数据集和相应的类别数量,第三列显示了使用的测试集,最后一列显示了相应测试集的准确性。首先,在HEU Emotion的两部分数据集上训练的参数模型在AFEW的训练和验证数据集上进行测试。HEU情感的情感类别是10。因此,模型参数不能直接应用于AFEW。我们用AFEW训练的分类器替换了10个分类器。从表7的第一行和第二行中,我们可以看到,使用HEU-part2的所有10种数据训练的参数在AFEW数据集上的结果很差。在此基础上,我们使用HEU-part2中的七种基本情感数据进行训练,获得了53.17%的准确率。在AFEW的训练集上对7种训练数据进行测试,准确率为48.80%,在验证集上的准确率为41.19%。训练集的准确率高于验证集的原因应该是训练集上的样本数量是验证集的两倍。数据量越大,概率越小,结果越能反映算法的真实的性能。与表6中AFEW的精度相比,HEUpart 2(7级)的精度略低。但它揭示了HEU-part2和AFEW的样本分布与注释标准非常相似。我们对HEU-part1使用了相同的身份验证方法。从表7中的六七行可以看出,10分类得到的特征分布与7分类不同,结果并不理想。为了进一步说明HEU-part1在训练过程中的类别数量会影响最终的特征分布。最后,我们选择了HEU-part1训练集的七个基本类别进行训练。仅包含7个类别的结果在验证集和测试集分别为58.40%和51.46%。然后将这些参数应用于AFEW。AFEW训练集的正确率为56.26%,验证集的正确率为42.33%。

        从表6和表7的分析可以看出,当HEU情绪中只有7种表情时,在验证集和测试集上的结果更好。添加其他三种类型的表达式会降低总体精度。为了验证其他三种情绪对HEU情绪的影响,表8列出了归一化混淆矩阵对HEU情绪的对角值。

        从表8可以看出,除无聊、困惑和失望情绪外,大多数其他类别的准确率略高于10,尤其是愤怒和中性情绪。结果表明,类别的增加确实会影响最终特征的分布,尤其是枯燥的特征,这与中性数据具有很高的相似性。

5.4其他模态的基线

        除了面部表情识别的基线之外,我们还使用深度卷积神经网络(CNN)的方法来给予另外两种模式的基线。人体姿势情感识别和人体行为识别都是通过人体动作来判断的,但目标域不同。因此,我们将近年来人类行为识别研究[17,46,54]的方法应用于姿势情感识别。为了加快收敛速度,我们使用这些模型的权重对动作识别作为预训练模型。在[17]中给出了许多网络。我们选择了性能最好的型号ResNeXt-101。在进入网络之前,每张图像都被调整为112×112像素。在训练阶段,我们将16个连续的帧作为一个输入,并且起始图像的索引是随机的。当结束图像的索引超过该范围时,最后的图像被再现为16帧。在测试阶段,输入了16个连续的帧,除此之外,所有的图片都是按顺序选择的。批量大小为3,HEU-part1的初始学习率为0.01,HEU-part2为0.1。学习速度降低到每30次的十分之一。此外,我们在[46]中选择ResNet 101作为空间模型。首先,将图像调整为224 × 224像素。在训练过程中,从每个视频中随机选择三帧,并在测试阶段使用所有帧。初始学习率设定为0.0005,每50批学习率下降0.1倍。优化器使用带动量的随机梯度下降法(SGD)。对于[54],我们还使用空间模型Resenet 152在每个视频中使用随机帧图像进行训练,并在视频中间使用单帧图像进行验证。批量设定为25。初始学习率为0.01,每100个批次的学习率衰减0.1倍。

         表9示出了HEU情感数据库的身体姿势情感识别的基线。ResNeXt-101使用3D卷积核来处理序列数据,另外两种方法基于单帧图像。与表6中给出的面部表情基线相比,当HEU-part1测试数据集中面部表情识别的准确率达到41.19%时,姿势情感识别的准确率可以达到33.02%。证明了姿势情感识别也是一种有意义的情感判断方法,也表明了姿势情感数据的有效性。HEU-part1的准确率高于HEUpart 2,但在面部表情识别中正好相反。考虑到HEU-part1具有更多的姿势情感视频,换句话说,它包含更广泛范围的整个身体或运动。从表2和表3中的定量比较也可以看出。HEU-part2主要是近距离拍摄,其中包含略差的身体信息。虽然HEU-part2包括较少的姿势信息,但它具有更多的情感语音信息。

        为了得到情感语音的基线,我们首先计算了16个低层描述符(LLDs),包括过零率,能量平方根,基音频率(F0),信噪比(HNR),MFCC 1 -12。然后,我们通过计算这16个LD的一阶差分得到32个LD。这些音频特征可以通过openSMILE工具包[11]基于INTERSPEECH 2009音频模板[45]提取。对每个视频片段进行384维特征计算,然后利用支持向量机进行分类。

        我们还使用原始语音信息和深度卷积神经网络给出了另一个基线。语音的采样率为16 K,也就是说,一秒钟内的语音是一个长度为16000的一维向量。每个语音样本的长度不一致,当长度大于20,000时,向量随机截断为20,000的长度,当长度小于20,000时,补充0。长度为20,000的向量被发送到一维卷积网络(ResNet 10)进行训练。在测试过程中,每个样本以160的步长被切割成20,000维向量,并且可以获得多个一维向量。对测试结果进行投票表决,得出每个样本的最终预测结果。

        在HEU-部分2验证集上的语音情感识别的准确性在表10中示出。实验结果表明,使用openSMILE算法提取的音频特征可以获得37.15%的较好分类效果。与其他两种模态相比,语音情感也取得了竞争性的结果。因此,HEU-part2的情感语音数据也是有效的。

5.5多模态情感识别

        从第5.3节和第5.4节中给出的三种单模态的基线来看,单模态情感识别可以达到很好的效果。与单一模态相比,多模态通过互补可以获得更高的准确性。我们的数据库包含面部、身体姿势和语音,这些都在判断情绪中发挥作用。当一张脸不可用时,身体姿势可以帮助识别情绪。在某些情况下,一些情绪表达没有相应的姿势。因此,我们需要对这三种模式进行全面分析。我们使用面部表情识别模型[47],姿势情感识别模型[18]和语音情感识别模型[11]以各种方式进行融合。我们使用了三种融合方法:MMA,[2]提出的融合和后期融合[51]。在后期融合的预测阶段,每个模型预测样本属于相关情感的概率。为每个模型分配适当的权重,以获得以下概率表示:

p = w1 × pface0 + w2 × paudio + w3 × pbody + w4 × pface1(8)

        其中wi = 1,wi是每个模型的权重。p的下标表示对应的模态,当对应的模态不可用时,权重为wi = 0。我们使用网格搜索策略来获得权重。

 从表11和表12中的结果,我们得到以下观察结果。我们提出的多模态融合模块MMA取得了比其他方法更好的结果。这主要是由于MMA可以根据分类结果自适应地调整每个模式。与后融合固定模型权值的方法相比,该方法更加灵活、准确。HEU—part1验证集从47.53%增加到49.22%,增加了1.69%,测试集从41.19%增加到43.38%,增加了2.19%。HEU—part2的验证集在面部表情数据集上的准确率为51.03%,与语音和姿势融合后,整体准确率提高了4.01%。这证明了多模态信息对于基于视频的情感识别是必不可少的。从表6、表9和表10可以看出,面部表情比其他模式更有优势。多模态可以弥补遮挡或其他噪声对面部表情识别的影响,实现更好的识别精度。

六、结论

        人类情绪识别是一项具有挑战性但有意义的研究工作。然而,现有的多模态情感数据库在户外的规模很小,有限的主题,用单一的语言表达,或包含某些情绪的样本很少。在这篇文章中,我们收集并注释了一个新的多语言多模态视频情感数据库HEU Emotion(主题数量为9,951)。它由两部分组成:双模态数据库HEU-部分1(包括面部表情和身体姿势情感)和多模态数据库HEU-部分2(包括面部表情、身体姿势和语音)。HEU情绪以多模态同步方式记录,可直接用于多模态情绪识别实验。HEU情感的视频是在不可控的自然条件下拍摄的,包括多视角面部和身体姿势的变化、局部遮挡、光照变化和表情强度的变化。我们的实验证明,在实验室控制的数据库上训练的算法不再适合户外的情感识别任务。与AFEW的跨数据集实验表明,我们的数据库是上级的AFEW。最后,我们进行了多模态的情感识别实验,使用面部表情,身体姿势,和情绪的讲话。评价指标表明,使用多模态处理真实世界的视频是有益的。迄今为止,HEU Emotion已经成为自然环境中最大的多模态情感识别数据库。我们希望HEU Emotion能够促进多模态情感识别的发展,提高自动情感计算系统在实际应用中的性能。

  • 31
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值