【翻译】MEC 2017：多模式情感识别挑战

最新推荐文章于 2024-06-30 14:32:22 发布

飞翔的七彩蜗牛

最新推荐文章于 2024-06-30 14:32:22 发布

阅读量7k

点赞数 3

本文链接：https://blog.csdn.net/as472780551/article/details/85843938

版权

MEC 2017：多模式情感识别挑战

摘要：本文介绍了2017年多模态情感识别挑战(MEC)的基线，这是第一届亚洲情感计算和智能交互会议的一部分，(亚洲)2018年。MEC2017的目标是提高真实世界条件下情感识别的性能。中文自然视听情感数据库(CHEAVD)2.0作为挑战数据库是2016年MEC发布的CHEAVD的扩展。2017年MEC有三个子挑战，31个团队参与其中的全部或部分。27个队、16个队和17个队团队分别参与音频(仅)、视频(仅)和多模态情感识别子挑战。生成音频(仅)和视频(仅)子挑战的基线分数。音频(仅)和视频(仅)子挑战的基线分数是由支持向量机(SVM)生成的，其中音频特征和视频特征是分开考虑的。在多模态子挑战中，采用特征级融合和决策级融合，音频(仅)、视频(仅)和多模子挑战的基线为39.2%，宏观平均精密度分别为21.7%和35.7%。

关键词：情感识别挑战，视听语料库，多模态特征，融合方法

一.前言

自动情感识别技术是通过分析人的语音、面部表情和身体姿态等来识别人的情感状态的技术。随着人工智能的发展因此，人们对实现更自然的人机对话系统产生了极大的兴趣，情感识别作为人机交互的一个重要方面，受到了广泛的关注。注意量[1-3]。

现有的情感挑战，如音频/视觉情感挑战(AVEC)[2，4]，言语间情感挑战[5]及其前身在InterSpeech，面部表情识别与分析(FRA)[6]，情感挑战在野外挑战(EmotiW)[1]或其他相关的任务(如中世纪[7，8]系列中的任务)已经被组织起来。这些主要是基于自发的数据库，这是对的一项重要努力，罗摩情感识别。然而，在这些努力中使用的挑战数据库并不包括中文。由于不同语言和文化的情感表达不同，多模态情感识别挑战(MEC)提供了一个通用的平台和通用的基准数据集，促进了汉语多模态情感识别的研究。在我身上 2016年，登记了43个小组，26个小组提交了结果。大多数团队采用传统的方法和深度神经网络来提取多模态特征，并结合融合方法对进行融合，OST识别性能[9-13]。在多模子挑战中，大多数团队考虑了音频模式和视频模式。有趣的是，[10，11]通过自动语音识别。除了MEC2016介绍的工作外，[14]还讨论了各种视觉描述符，如标度不变特征变换[15]，面向Gradi的直方图等。 Ents[16]和局部相位量化[17]用于情感识别。[18]学习特定任务的AU感知的[19]面部特征，并编码它们之间的潜在关系以进行鲁棒的表情识别。 [20]利用卷积神经网络，其次是长-短期记忆[21]，提取序列级特征。[22]将3D卷积网络[23]引入情感识别，该模型同时对视频的外观和运动进行建模。这些研究在多模态情感识别方面取得了显著的进展。

在2016年第一届MEC之后，MEC2017有三个子挑战，31个团队要么全部参加，要么参与其中的一部分。27、16和17组参加音频(仅)、视频（分别）。中文自然音频-视觉情感数据库(CHEAVD)2.0作为挑战数据集，是2016年MEC发布的CHEAVD[3]的扩展。伸长通过加入更多的样品来制备离子。CHEAVD2.0和它的前身一样，是从中国电影、肥皂剧和电视节目中挑选出来的，它们模仿现实世界的情况。

在本文中，我们提出了MEC2017的基线，提供了数据集、基线方法和挑战协议。音频(仅)和视频(仅)子挑战的基线分数是通用的。支持向量机(SVM)中分别考虑音频特征和视频特征的，要生成多模子挑战的基线，可以采用不同的融合方法，例如同时考虑了特征级融合和决策级融合。

组织者提供的基准音频和视频功能集可以免费使用-要么全部使用，要么部分使用。然而，它非常鼓励遵循最初的协议，如她所概述的。如果与参与者进行比较，参与者最多可以在五个试验中上传他们的结果，以便在每个子挑战的测试集上进行评估。在FI中效果最好参赛作品将被认为是他们在比赛中的最后分数。每个注册团队应提交一份论文，介绍该小组使用的结果和方法，并进行同行评审。

本文的结构如下。我们在第二节中详细描述了CHEAVD2.0。基线特征和实验结果分别见第三节和第四节，第五章是全文的结束语。

二、多模态情感数据库数据集

数据集作为挑战中数据驱动方法的一个重要方面，促进了特定任务的研究。为情感研究提供基本的汉语资源。 1.多模态交互在实际应用中的应用，我们收集了CHEAVD2.0，并将其作为MEC 2017的数据库.

CHEAVD2.0是2016年MEC发布的CHEAVD的扩展，增加了4178个样本。CHEAVD2.0也是从中国电影、肥皂剧和电视节目中挑选出来的，背景中含有噪音。去模仿现实世界的状况。所选的样品截图见图1。CHEAVD2.0有474分钟的自发情绪片段。527名发言者，从儿童到老年人，都包含在这个数据库中。录音按性别分布划分如下：58.4%为男性受试者，41.6%为女性受试者。这些样本的持续时间范围从1秒到19秒，平均持续时间为3.3秒。

2017年MEC采用离散情感标注策略。为了保持情感标注的一致性，我们在CHEAVD2.0中请四个有经验的Tagger对每个样本进行标记。计算效率来评估注释的一致性，如表一所示。最后，以四个批注的平均数作为每个片段的唯一标签。我们只选取了前八大情绪类，即快乐、悲伤、忧虑、愤怒、焦虑、惊讶、厌恶和中性，共7030个样本。评估情绪识别将这些样本分为三组：训练集、验证集和测试集，分别包含4917、707和1406个样本。情感数据集的功能可在表二中找到。参与者可以在训练集上训练他们的模型，并根据验证集选择超参数，以找到最佳的情感识别。性能最高的型号，在提交阶段，参与者应将他们的情绪预测上传到测试集上。

三、特征

A.声学特征

为了透明性和易复制性，我们使用了eGeMAPSv01a.conf开放源码openSMILE工具包[24]中给出的特性规范来提取扩展的日内瓦最小。 USTIC参数集，这也是AVEC 2016竞赛[25]和MEC 2016[3]中的基准特征集，这些特征对语音情感识别具有很强的鲁棒性[10]。

在基线音频特征集中，声低电平描述符包括光谱、倒谱、韵律和语音质量信息，详见表三。因为音频数据包含长连续录音，它使用固定长度。提取函数的分段，它们以40毫秒的速度向前移动。总的来说，这些声学基线特征包含88个音频特征。

表三.2017年MEC多模态情感识别挑战的声学特征

Energy & spectral low-level descriptors (26)

听觉(响度)和，α比(50-1000 Hz/1-5 kHz)1，能量斜率(0-500 Hz，0.5-1.5 kHz)1，Hammarberg索引1，MFCC 1-42，频谱通量2

Voicing related low-level descriptors (16)

F0(线性和半音调)，Formants 1，2，3(频率，带，Ampl.)，谐波差H1-H2，H1-H3，log。HNR，Jitter(本地)，Simmer(本地)

1分别计算浊音和无浊音帧；2分别计算浊音、无浊音和所有帧。

B.视觉特征

选择三个正交平面上的局部二值模式(LBPTOP)[26]作为基线视觉特征集，显示了其在已有文献[14，27，28]中的情感识别性能。

LBPTOP是一种动态纹理，它将纹理扩展到时域。在使用统一编码的同时，基本LBP有59个特征。LBPTOP将基本LBP从二维扩展到三维在XY、XT和YT平面上分别应用相关的描述子，并根据直方图将它们连接在一起(Cf)。图2)。为了精确地获取本地信息，基于块的MET 利用HOD，将原始帧划分为2×2块。最后提取了2×2×59×3=708的LBPTOP特征。

为了减轻背景的影响，人脸预处理方法是必不可少的，包括灰度处理、人脸检测、人脸变换和人脸归一化等。面部预处理 hods遵循MEC 2016[3]中使用的方法，在Viola和Jones[30]的基础上应用跟踪算法和工具包[29]。对于lbptop，我们使用了所创建的开放源代码matlab代码。

第四章 BASELINE EXPERIMENTS

为了确保结果的完全可重现性，我们完全依赖于公共图书馆的科学学习来计算基线结果。通过与随机林、adaboost和支持向量机的比较，我们发现支持向量机是,用于小型数据集的矿石分类任务。该模型在训练数据集上进行优化，在验证数据集的基础上选择超参数，找出最优的情感识别模型。

由于情绪状态在现实世界中的分布不均匀，我们选择宏观平均精度(MAP)作为这一挑战的主要衡量标准，其次是精度(ACC)。计算m 在EQ中给出了MAP和ACC的方法。(1)-(3)

其中s表示情感类的数量。TPI和FPI分别代表第一情感类的真阳性预测数和假阳性预测数。PI为t 第一情感类的精确性。表四显示了音频(仅)、视频(仅)和多模子挑战的超参数和基线结果。表五比较了两种融合MET HODS中的多模态子挑战：特征级融合和决策级融合。三个子挑战的基线结果的混淆矩阵如图所示。3~5，分别

从表IV中可以看出，优化的分类器在验证集和测试集上关闭ACC，而MAP显示最大的差距。这是因为ACC倾向于如果情感类标签分布均匀，ACC值较高。然而，在现实世界中，情感类的分布并不均匀，因此，我们可以看到地图。是一种更严格的度量，用于评估系统在所有情绪类中的总体表现，而不考虑潜在的低百分比。因为有些情感课有几个样本，地图在某些情况下不是很稳定。结果表明，少数民族情感课需要进一步努力。

通过表四和表五，地图中音频(仅)、视觉(仅)和多模态子挑战的基线分别为39.2%、21.7%和35.7%。因此，音频模式具有最高的地图。测试的三个子挑战设置，而视觉模式(仅)是最坏的情况。然而，人们也注意到决策级融合在MAP上有很大的改进。

通过图3~5，由于缺乏训练样本，我们发现焦虑、厌恶、悲伤、惊讶和忧虑难以分类。愤怒和悲伤很容易与其他情绪区分开来。粗略的音频模式。而且，人们似乎可以通过视觉方式很好地区分快乐和其他情感。所有非中性样本极有可能被错误分类为由于阶级分布不平衡，这是一个人在现实生活中不得不面对的自然现象。

五.结论

本文介绍了2017年多模态情感识别挑战(MEC)的基线，重点介绍了挑战的数据、基线方法和协议。现有情绪挑战，如avec和EmotiW，是促进情感识别的重要努力。然而，在这些努力中使用的挑战数据集并不包括中文。然而，考虑到汉语的文化差异和与发音有显著差异的一种不同的语言，了解汉语情感识别的现状是很有趣的。 IC的观点，鉴于它的色调性质。CHEAVD2.0被用作挑战数据集，包含7030个样本，因此比以前在该主题上的尝试要大。2017年MEC有三次 LINELES：音频(仅)，视频(仅)和多模子挑战，分别声学特征和视觉特征是用开源工具包提取的，SIN基线评分，Gle模式子挑战是由一个开放源码的支持向量机分类器产生的，为了获得多模态子挑战的基线分数，考虑了多种融合方法.的基线分数 MAP中音频(仅)、视频(仅)和多模子挑战分别为39.2%、21.7%和35.7%。

飞翔的七彩蜗牛

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
22
评论
【翻译】MEC 2017：多模式情感识别挑战

MEC 2017：多模式情感识别挑战摘要：本文介绍了2017年多模态情感识别挑战(MEC)的基线，这是第一届亚洲情感计算和智能交互会议的一部分，(亚洲)2018年。MEC2017的目标是提高真实世界条件下情感识别的性能。中文自然视听情感数据库(CHEAVD)2.0作为挑战数据库是2016年MEC发布的CHEAVD的扩展。2017年MEC有三个子挑战，31个团队参与其中的全部或部分。27个队、1...
复制链接

扫一扫