ER综述论文阅读-Emotion Recognition from Multiple Modalities:Fundamentals and Methodologies

Emotion Recognition from Multiple Modalities:Fundamentals and Methodologies

Q1期刊;2021

论文链接:https://arxiv.org/pdf/2108.10152

文章总结

        多模态情感识别(MER)作为一个新兴的跨学科研究领域,已引起了广泛的关注。

        它通过结合来自不同模态的数据,如文本、音频、图像、视频、面部表情、语音信号和生理信号,来实现更为全面和准确的情感识别。本文综述了 MER 的各个方面,涵盖了心理模型、情感模态、数据收集与情感标注、计算任务、挑战、计算方法以及应用场景。

  1. 首先,本文讨论了两类心理学情感模型,即类别情感状态(CES)模型和维度情感空间(DES)模型,这些模型为情感的表征和计算提供了理论基础。
  2. 接着,我们介绍了 MER 中常用的情感模态,既包括通过身体变化捕捉的显式情感线索(如面部表情和语音),也包括通过数字媒体隐含表达的情感刺激(如文本和视频)。
  3. 数据收集与标注部分则讨论了如何通过现有资源或新采集的数据为情感识别构建大规模的多模态数据集。
  4. 本文还详细讨论了 MER 中涉及的主要计算任务,包括分类、回归、检测和检索。每项任务都有其特定的挑战和技术要求。
  5. 我们指出,MER 的主要挑战在于情感差距、感知主观性、数据不完整性、跨模态不一致性、跨模态不平衡,以及标签噪声与缺失等问题。
  6. 计算方法方面,本文讨论了情感模态的表示学习、特征融合和分类器优化的不同策略。我们展示了如何通过早期融合、晚期融合和基于模型的融合方法来整合多模态信息,以提高情感识别的性能。此外,未来的情感识别研究也应着重于提高情感模型的鲁棒性和解释性。
  7. 最后,我们讨论了 MER 的实际应用领域,包括医疗健康、人机交互、教育、娱乐、广告、安全与监控等多个场景。随着情感智能技术的发展,MER 有望在这些领域中发挥越来越重要的作用。
  8. 我们还提出了 MER 研究的若干未来方向,如高级情感表征、更自然的多模态交互、跨文化情感识别、数据隐私保护和自适应情感系统等。

        总的来说,MER 技术通过融合多种模态的情感线索,提供了一个强大的工具,能够提升情感智能的表现和应用。未来的研究将继续推动这一领域的发展,促使 MER 技术在更多的实际应用中得到广泛采用。


1. Introduction

        前两段交代情感的重要性。

        使智能机器具备类人情感表达的第一步是通过两类情感模态识别并理解人类的情感:显式情感线索(explicit affective cues)和隐式情感刺激(implicit affective stimuli)。显式情感线索是指人类可以直接观察和记录的特定身体和心理变化,例如面部表情、眼球运动、语音、动作和生理信号。这些信号有时可以被有意抑制或掩饰,或者难以捕捉。与此同时,移动设备和社交网络的普及使得人们习惯于在线分享他们的经历和表达观点,使用文本、图像、音频和视频来表达情感。隐式情感刺激指的是这些常见的数字媒体,通过分析这些内容,可以间接推断出人类的情感。

        无论情感是通过显式还是隐式方式表达的,通常都涉及多种模态,如图1所示。与单一模态情感识别相比,多模态情感识别(MER)具有多重优势。首先,数据互补性:来自不同模态的线索可以相互补充。例如,当我们看到好友发了一条“天气真好!”的帖子时,很有可能他们是在表达积极的情感,但如果帖子的配图是一场风暴,我们可以推测这实际上是讽刺,意图表达消极情绪。其次,模型鲁棒性:由于数据采集中常见的因素,如传感器设备故障,某些模态的数据可能无法获得,尤其是在现实环境中。例如,在包含语音、面部表情和手势模态的 CALLAS 数据集中,对于一些暂时不动的用户,手势数据缺失。在这种情况下,训练好的 MER 模型可以利用其他可用模态继续工作。最后,性能优势:综合考虑不同模态的互补信息可以提高识别性能。元分析表明,与表现最好的单一模态相比,MER 的平均性能提升了 9.83%。

        本文将对 MER 的各个方面进行全面的介绍,包括心理模型、情感模态、数据收集与情感标注、计算任务、挑战、计算方法、应用及未来方向。目前已有一些关于 MER 相关主题的综述和调研文章,然而,它们或是着重于多模态情感融合技术,或是定量的系统分析。本文不同于以往的工作,我们旨在提供一个简明且全面的 MER 入门教程,适合非专业人士快速上手并理解这一领域。

2. PSYCHOLOGICAL MODELS心理模型       

        在心理学中,情感测量的模型主要分为两类:类别情感状态(CES:categorical emotion states)模型和维度情感空间(DES: dimensional emotion space)模型

  • 类别情感状态(CES)模型将情感定义为几个基本类别,例如二元情感(正面和负面,有时包括中立),Ekman 的六种基本情感(正面的快乐、惊讶和负面的愤怒、厌恶、恐惧、悲伤),Mikels 的八种情感(正面的娱乐、敬畏、满足、兴奋和负面的愤怒、厌恶、恐惧、悲伤),Plutchik 的情感轮(八个基本情感类别,每种情感有三种强度),以及 Parrott 的情感树状层次结构(一级、二级和三级情感类别)。随着心理学理论的发展,CES 模型越来越多样化和细化。
  • 维度情感空间(DES)模型则采用二维、三维或更高维的笛卡尔空间来表示情感;其中最广泛使用的 DES 模型是愉悦度-唤醒度-支配度(VAD)模型,其中,愉悦度表示情感的愉快程度,唤醒度表示情感的强度,支配度表示情感的控制程度。

        CES 模型更符合人类的直觉感知,但心理学家尚未就应包含多少离散情感类别达成共识。此外,情感是复杂而微妙的,有限的离散类别难以全面反映情感的多样性。相比之下,DES 模型理论上可以将所有情感表示为连续笛卡尔空间中的不同坐标点,但这些绝对的连续值超出了普通用户的理解能力。这两类情感定义是相互关联的,CES 模型和 DES 模型之间可以相互转换。例如,愤怒可以对应于负面愉悦度、高唤醒度和高支配度。

        除了情感之外,情感计算领域中还有其他广泛使用的概念,如心情、情感、情绪和情感倾向。情感可以是预期的、引发的或感知的。本文不区分这些概念的差异或关联,详情可参考文献[11]。

3. AFFECTIVE MODALITIES情感模态

        在多模态情感识别(MER)领域,通常使用多种模态来识别和预测人类的情感。MER 中的情感模态大致可分为两类:一类是通过人类身体变化来识别情感的显式情感线索,另一类是通过外部数字媒体来识别情感的隐式情感刺激。

  • 显式情感线索包括面部表情、眼球运动、语音、动作、步态和脑电图(EEG),这些都可以直接从个人身上观察、记录或收集。
  • 而隐式情感刺激包括常见的数字媒体类型,如文本、音频、图像和视频。

我们使用这些数据类型来存储信息和知识,并通过数字设备进行传递。在这种情况下,情感可能被隐含地涉及和唤起。尽管单一模态的有效性作为表达情感的可靠通道无法得到保证,但综合考虑多种模态可以显著提高情感识别的可靠性和鲁棒【12】。

A. 显式情感线索

        面部表情是一种或多种人脸区域/单元的独立运动,或这些运动的组合。人们普遍认为面部表情能够传递丰富的情感线索,并且被视为表达情感状态和人类意图的最自然、最有力的信号之一【12】。面部表情也是一种非语言交流形式,用于在人类之间传递社交信息。通过观察一个人的**眼球运动**,我们可以推测出其情感状态。眼睛通常被视为情感的重要线索。例如,如果一个人感到紧张或说谎,其眨眼频率可能会比平时更慢【4】。眼球运动信号可以通过眼动追踪系统轻松收集,广泛应用于人机交互研究中。

  • 语音是携带情感的重要声学模态【13, 14】。说话者可以通过不同的语调、音量和语速来表达他们的意图,如提问或陈述。特别是,当人们彼此交谈或自言自语时,情感可以通过语音表现出来。
  • 作为人类肢体语言的重要组成部分,动作也传递着大量的情感信息。例如,空中挥拳(air punch)是一种将紧握的拳头高高举向空中的行为,通常表达胜利或激动的情感。
  • 与动作类似,人们的步态,即其行走方式,也可以传递情感信息。心理学文献已证明,观察个体的姿态(如大步行走、上身萎靡等),参与者可以识别出该个体的情感【5】。
  • 身体运动(如行走速度)在情感感知中也起着重要作用。高唤醒情感(如愤怒和兴奋)通常与快速的动作相关,而低唤醒情感(如悲伤和满足)则与缓慢的动作相关。
  • 最后,脑电图(EEG)作为一种代表性的心理信号,是记录大脑电活动和情感活动的另一重要方法【15】。与上述的显式线索相比,EEG 信号的收集通常更加困难且不自然,无论是通过非侵入式的头皮电极还是侵入式的皮层电图。

B. 隐式情感刺激

  • 文本是一种记录人类自然语言的形式,能够隐含地传递丰富的情感信息【16, 17】。文本包含不同层次的语言成分,包括单词、句子、段落和文章,这些成分已被广泛研究;许多现成的算法可以将文本分割成小片段。然后,借助公开可用的词典(如 SentiWordNet),每个语言片段的情感属性可以被识别,进而推断出文本所唤起的情感。
  • 数字音频信号是声音的表示,通常以一系列二进制数的形式存储和传输【12】。音频信号可以直接合成,也可以来自于麦克风或乐器等换能器。与主要关注人类声学信息并可以转换为自然语言的语音不同,音频更加广泛,包含任何声音,如音乐或鸟鸣。
  • 图像是空间上颜色点的分布【6】。众所周知,“一图胜千言”,心理学研究表明,图像能够在人类中唤起情感【18】。随着人们在网络上分享的图像数量激增以及图像强大的描述能力,图像作为关键的情感刺激吸引了广泛的研究。
  • 视频自然同时包含多种模态,如视觉、音频和文本信息【19】。这意味着可以通过学习和利用时间、空间及多通道表示来识别视频中的情感。

4. DATA COLLECTIONS AND EMOTION ANNOTATIONS数据收集与标注

        构建多模态情感识别(MER)数据集通常包括两个步骤:数据收集和情感标注。所收集的数据大致可以分为两类:从现有数据中选择和在特定环境中进行新记录。

        一方面,有些数据是从电影、评论、视频和社交网络中的电视节目中选取的,例如 YouTube 和微博。例如,ICT-MMMO 和 MOUD 数据集中的评论视频是从 YouTube 收集的;MELD 数据集中的视听片段是从电视连续剧中提取的;Yelp 网站中的食物和餐馆类别的在线评论被抓取;CMU-MOSI 数据集中的视频博客(vlogs),通常是一个演讲者看着摄像机,旨在捕捉演讲者的情感信息,这些视频也是从 YouTube 收集的。一些收集到的数据提供了手动转录的语音(例如 CMU-MOSI、CH-SMIS)或自动生成的语音转录(例如 ICT-MMMO、MELD)。

        另一方面,一些数据通过不同的传感器在特定设计的环境中进行新记录。例如,在 DEAP 数据集中,参与者通过观看音乐视频时所产生的生理信号和面部变化被记录下来。

        情感标注策略也有多种形式。一些数据集具有明确的目标情感,因此不需要进行标注。例如,在 EMODB 数据集中,演员表演的每句话都对应一个目标情感。对于某些数据集,情感标注是自动生成的。例如,在 Multi-ZOL 数据集中,每条评论的整数情感评分(范围为 1 到 10)被视为情感标签。还有一些数据集通过雇佣多名工作人员进行情感标注,例如 VideoEmotion-8 数据集。对于通过记录方式获取的数据集,通常通过参与者的自我报告来进行标注,例如 MAHNOB-HCI 数据集。此外,大多数数据集的情感标签是通过多数投票法获得的。对于维度情感空间(DES)模型,常用的标注工具有 “FeelTrace” 和 “SAM”。前者基于激活-评价空间,允许观察者在感知情感刺激时实时追踪其情感内容;后者则是基于不同的李克特量表进行情感评分的工具。

        表 I 总结了一些常用的数据集。

        

5. COMPUTATIONALTASKS计算任务

        给定多模态情感信号,我们可以执行不同的多模态情感识别(MER)任务,包括分类、回归、检测和检索。在本节中,我们将简要介绍这些任务的功能。

A. 情感分类

        在情感分类任务中,我们假设每个样本只能属于一个或固定数量的情感类别,目标是发现数据空间中的类别边界或类别分布【16】。目前的工作主要集中在手动设计多模态特征和分类器,或者使用深度神经网络以端到端的方式进行处理。作为一种单标签学习(SLL)问题,MER 为每个样本分配一个主要的情感标签。然而,情感可能是来自不同区域或序列的多种成分的混合,而不仅仅是一个代表性的情感。同时,不同的人可能对相同的刺激产生不同的情感反应,这通常是由个性等多种因素导致的。因此,多标签学习(MLL)被用于研究每个样本与多个情感标签相关联的情况。最近,为了解决 MLL 不适合某些实际应用的问题——在这些应用中,不同标签重要性的整体分布更加重要,标签分布学习(LDL)被提出,用于覆盖一定数量的标签,表示每个情感标签描述该样本的程度【20】。

B. 情感回归

        情感回归的目标是学习一个映射函数,将样本与笛卡尔空间中的连续情感值有效关联。MER 的最常见回归算法旨在为源数据分配平均维度值。为了应对情感的内在主观性特征,研究人员提出预测在维度愉悦度-唤醒度(VA)空间中表示的情感的连续概率分布。具体来说,VA 情感标签可以通过高斯混合模型(GMM)表示,然后情感分布预测可以形式化为参数学习问题【21】。

C. 情感检测

        由于原始数据未必包含情感,或者仅部分数据能够引发情感反应,情感检测的目标是找出源数据中情感所在的部分。例如,Yelp 上的一条餐馆评论可能包含以下内容:“这个地点就在我工作的对面,步行很方便!至于食物,与我去过的其他地方差不多,所以没什么好说的。不过我必须说客服服务时好时坏。”整体评分为五分中的三星。这条评论包含不同的情感和态度:第一句是正面的,第二句是中立的,最后一句是负面的。因此,系统必须检测出哪一句对应于哪种情感。另一个例子是图像中的情感区域检测【22】。

D. 情感检索

        基于人类感知来搜索情感内容是另一项有意义的任务。现有的框架首先检测查询和候选数据源中的局部兴趣区域或序列。然后,通过判断两个区域或序列之间的距离是否小于给定的阈值,来发现所有匹配的对。最后,基于匹配组件的数量计算查询与每个候选项之间的相似度评分,并按此对候选项进行排名。情感检索系统在从大量存储库中获取具有所需情感的在线内容方面非常有用【10】,但其抽象性和主观性使该任务具有挑战性,且难以评估。

6. CHALLENGES

        如在第一节中所述,多模态情感识别(MER)相比于单模态情感识别具有多重优势,但也面临更多挑战。

A. 情感差距

        情感差距是 MER 面临的主要挑战之一,它衡量了提取的特征与感知到的高层次情感之间的不一致性。相比于客观多媒体分析中的语义差距,情感差距更为复杂。即使语义差距得以弥合,情感差距仍可能存在。例如,盛开的玫瑰和凋谢的玫瑰都包含“玫瑰”这个对象,但可以唤起完全不同的情感。同样的句子以不同的语调表达可能传达出完全不同的情感。提取与情感相关的高层次判别性特征有助于弥合情感差距,而主要难点在于如何评估提取的特征是否与情感相关。

B. 感知主观性

        由于许多个人、上下文和心理因素的影响,如文化背景、个性和社会环境,不同的人可能对同样的刺激产生不同的情感反应【10】。即使情感相同,他们的身体和心理变化也可能截然不同。例如,ASCERTAIN 数据集中用于 MER 的 36 个视频由 58 名受试者用七个不同的愉悦度和唤醒度评分标注,这清楚地表明,一些受试者对相同的刺激产生了相反的情感反应。以暴风雨和雷声的短视频为例,有些人可能因为从未见过如此极端的天气而感到敬畏,有些人可能因为巨大的雷声感到恐惧,有些人可能因捕捉到这种罕见场景而感到兴奋,还有一些人可能因为不得不取消旅行计划而感到悲伤。即使是同一种情感(如兴奋),反应也可能不同,如面部表情、步态、动作和语音。针对主观性挑战,一种直接的解决方案是为每个受试者学习个性化的 MER 模型。从刺激的角度来看,我们还可以预测当一定数量的受试者参与时的情感分布。除了刺激的内容和直接的身体与心理变化外,联合建模上述个人、上下文和心理因素也将有助于 MER 任务。

C. 数据不完整性

        由于数据采集中存在许多不可避免的因素,如传感器设备故障,某些模态的信息可能会受损,导致数据丢失或不完整。数据不完整性是现实世界 MER 任务中的常见现象。例如,对于显式情感线索,EEG 头戴设备可能会记录到被污染的信号,甚至无法记录到任何信号;在夜间,摄像头可能无法捕捉到清晰的面部表情。对于隐式情感刺激,用户可能只发布包含图像的推文(没有文本);某些视频的音频通道可能变化不大。在这种情况下,最简单的特征融合方法(即早期融合)无法工作,因为没有捕获到信号就无法提取任何特征。设计能够处理数据不完整性的有效融合方法是广泛采用的策略。

D. 跨模态不一致性

        同一样本的不同模态可能相互冲突,从而表达不同的情感。例如,面部表情和语音可以很容易地被抑制或掩饰以避免被检测到,但 EEG 信号由中枢神经系统控制,可以反映人类的无意识身体变化。当人们在社交媒体上发布推文时,图片与文本之间的语义不一致是很常见的。在这种情况下,有效的 MER 方法需要自动评估哪种模态更为可靠,例如为每种模态分配权重。

E. 跨模态不平衡

        在某些 MER 应用中,不同模态对引发情感的贡献可能不相等。例如,在线新闻在我们日常生活中起着重要作用,除了了解读者的偏好,预测他们的情感反应在个性化广告等应用中具有很大的价值。然而,一篇在线新闻通常包括不平衡的文本和图像内容,即文章的篇幅可能很长,包含大量详细信息,而插入的插图可能只有一两张。更具挑战性的是,新闻编辑可能会为情感明显的文章选择一张中立的图片。

F. 标签噪声与缺失

        现有的 MER 方法,特别是基于深度学习的方法,需要大规模标注数据进行训练。然而,在现实应用中,情感标签的生成不仅成本高、耗时长,而且非常不一致,这导致了大量数据只有少数或甚至没有情感标签。随着情感需求的日益多样化和细化,某些情感类别可能拥有足够的训练数据,而其他类别则没有。手动标注的一个替代方案是利用社交推文的标签或关键词作为情感标签,但这些标签通常是不完整且存在噪声。因此,设计有效的无监督/弱监督学习和小样本/零样本学习算法可以提供潜在的解决方案。

        与此同时,我们可能在某个领域拥有充足的标注情感数据,如合成面部表情和语音。问题转向如何将训练好的 MER 模型从标注的源领域有效迁移到另一个未标注的目标领域。

7. COMPUTATIONAL METHODOLOGIES计算方法

        通常情况下,多模态情感识别(MER)框架由三个组成部分构成:表示学习、特征融合和分类器优化,如图 2 所示。在本节中,我们将介绍这些组成部分。此外,我们还将描述在目标领域没有标注数据时,如何通过领域适应(domain adaptation)进行情感识别。

A. 各种情感模态的表示学习

  • 文本转化为计算机可以理解的形式,需要以下几个步骤:首先,将符号化的单词表示为实数,以便下一步计算;其次,建模语义关系;最后,为整个文本获取统一的表示【16】。起初,单词是通过独热向量(one-hot vectors)表示的,向量长度等于词汇表的大小,对于词汇表中的第 t 个单词 \(w_t\),仅位置 t 的值为 1,其余位置为 0。随着数据规模的增加,独热向量的维度会显著增长。后来,研究人员开始使用语言模型通过预测上下文来训练**词向量**,从而获得固定维度的单词表示。流行的词向量模型包括 Word2Vec、GLOVE、BERT、XLNet 等。文本特征提取方法从简单逐渐发展到复杂。文本特征可以通过简单地对单词向量进行平均来获得。循环神经网络(RNN)用于建模文本中单词的顺序关系。卷积神经网络(CNN),在计算机视觉领域广泛应用,也被用于提取单词之间的上下文关系。
  • 到目前为止,研究人员已经开发了大量方法来为音频中的情感刺激设计特征表示【13, 14】。研究发现,音频特征如音高、对数能量、过零率、频谱特征、音质和抖动等在情感识别中是有用的。ComParE 声学特征集自 2013 年以来一直是计算副语言挑战(Computational Paralinguistics Challenge)系列的基准特征集。然而,由于某些情感可能具有高度相似性,单一类型的音频特征不足以有效区分情感。为解决这一问题,研究人员提出了结合不同类型特征的方法。近年来,随着深度学习的发展,CNN 在许多自然数据领域的大规模任务中表现出色,音频情感识别自然也包含其中。音频通常被转化为图形表示形式,如频谱图(spectrogram),然后输入 CNN 进行处理。CNN 通过共享权重的滤波器和池化操作,使模型具备更好的频谱和时间不变性,从而在情感识别中表现出更好的泛化能力和鲁棒性。
  • 研究人员还为图像中的情感刺激设计了信息丰富的表示。一般来说,图像可以分为两类:非限制性图像和面部表情图像。对于前者,例如自然图像,早期研究中开发了许多手工设计的特征,包括颜色、纹理、形状、构图等【10】。这些低层次特征是从心理学和艺术理论中获得灵感开发的。后来,基于视觉概念的中层特征被提出,用于弥合图像中的像素和情感标签之间的鸿沟。最具代表性的方法是 SentiBank,它由 1,200 对形容词-名词对(adjective-noun pairs)组成,在所有手工设计的特征中表现出显著和稳健的识别性能。在深度学习时代,CNN 被认为是强大的特征提取器,能够以端到端的方式提取特征。为了整合不同层次的表示,CNN 的多个层次提取特征。与此同时,注意力机制被引入,以学习更好的特定局部情感区域的表示【22】。对于面部表情图像,首先检测并对齐人脸,然后对人脸标志进行编码,以用于情感识别任务。需要注意的是,对于那些偶然包含人脸的非限制性图像,面部表情可以被视为重要的中层线索。
  • 前面我们已经提到如何从独立的模态中识别情感。这里,我们首先关注如何从连续的帧中感知情感。然后,我们介绍如何为视频构建联合表示。与单张图像相比,视频包含一系列具有时间信息的图像【19】。为构建视频的表示,提出了多种方法。早期的方法主要使用手工设计的局部表示,如颜色、运动和镜头剪辑率。随着深度学习的发展,近年来提出了通过 3D CNN 来提取多帧间时间信息的判别性表示。在提取视频中的模态特定特征后,结合不同类型的特征可以获得更好的效果,从而提高性能。
  • 对于步态的情感识别,有两种主要方法【24】。一方面,我们可以显式地对与情感相关的姿态和运动信息进行建模。首先提取人的骨骼结构,然后使用三维坐标系统表示每个关节。获得这些坐标后,可以轻松提取关节之间的角度、距离或面积(姿态信息)、速度/加速度(运动信息)、协方差描述符等。另一方面,也可以通过长短期记忆(LSTM)、深度卷积神经网络或图卷积神经网络对步态进行高层次的情感表示建模。有些方法从步态视频中提取光流特征,然后使用这些网络提取序列表示。其他方法则学习步态的骨骼结构,并将其输入到多个网络中,以提取判别性特征。
  • 由于情感刺激会在大脑中产生多种信息(如频带、电极位置和时间信息),脑电图(EEG)信号广泛用于情感分析【15】。为了从 EEG 情感识别中提取判别性特征,频带或电极位置关系的微分熵特征在以往的工作中非常流行。除了手工设计的特征外,还可以直接在原始 EEG 信号上应用端到端的深度学习神经网络,如 CNN 和 RNN,以获取强大的深度特征【25】。受人类学习模式的启发,空间注意力机制被成功应用于提取更具判别性的空间信息。此外,考虑到 EEG 信号包含多个通道,还可以将通道注意力机制集成到 CNN 中,以利用特征图之间的通道关系。

B. 不同情感模态的特征融合

        特征融合是 MER 领域的关键研究课题之一,旨在将不同模态的表示整合在一起,预测特定的情感类别或连续情感值。通常,特征融合有两种策略:无模型融合和基于模型的融合【7, 9】。

  • 无模型融合是指不直接依赖于特定学习算法的融合方法,已经被广泛使用数十年。无模型融合可以分为早期融合、晚期融合和混合融合【5】。所有这些融合方法都可以从现有的单模态情感识别分类器扩展而来。早期融合,也称为特征级融合,直接将来自不同模态的特征表示连接为一个单一的表示。这是最直观的融合方法,能够在早期阶段利用不同模态之间的交互,仅需训练一个模型。但是,由于不同模态的表示可能差异显著,因此在融合之前必须解决时间同步问题,以便将这些表示转换为相同格式。当某个或多个模态丢失时,早期融合将失效。晚期融合,也称为决策级融合,结合了每个单一模态的预测结果。一些流行的机制包括平均、投票和信号方差。晚期融合的优势包括(1)灵活性和优越性——可以为不同模态选择最优的分类器;(2)鲁棒性——当某些模态丢失时,晚期融合仍然可以正常工作。然而,在决策之前,忽略了不同模态之间的相关性。混合融合结合了早期融合和晚期融合的优势,但计算成本更高。
  • 基于模型的融合是在学习模型构建过程中显式执行融合,近年来受到更多关注【7, 9】。基于模型的融合方法如图 3 所示。对于浅层模型,基于核的融合和基于图的融合是两种代表性方法;对于近年来流行的深度模型,基于神经网络的融合、基于注意力机制的融合以及基于张量的融合经常被使用。
    1. 基于核的融合是基于包含核函数的分类器(如 SVM)扩展而来的。对于不同模态,使用不同的核函数。核选择的灵活性和损失函数的凸性使得核学习融合在许多应用中(包括 MER)广受欢迎。然而,在测试阶段,这些融合方法依赖于训练数据中的支持向量,这会导致较大的内存开销和低效的推理。
    2. 基于图的融合为每个模态构建单独的图或超图,然后将这些图合并为一个融合后的图,通过基于图的学习来学习不同边和模态的权重。它能够很好地处理数据不完整性问题,只需基于可用数据构建图。此外,除了提取的特征表示外,还可以通过对应的边缘将人类的先验知识纳入模型中。然而,当训练样本增加时,计算成本会呈指数增长。
    3. 基于神经网络的融合通过神经网络直接且直观地融合来自不同模态的特征表示或预测结果。
    4. 基于注意力机制的融合使用某些注意力机制,获得一组带有动态学习的标量权重的特征表示加权和。不同的注意力机制针对不同的组件进行融合。例如,图像的空间注意力衡量不同图像区域的重要性。图像与文本的共注意力使用对称的注意力机制,分别生成视觉和文本的注意力表示。平行共注意力交替共注意力分别用于同时生成不同模态的注意力,以及逐一生成模态的注意力。
    5. 最近,多模态适应门(MAG)被设计用于使基于 Transformer 的上下文词表示(如 BERT 和 XLNet)能够接受多模态非语言数据【17】。基于非语言行为的注意力,MAG 本质上将多模态信息映射为带有轨迹和幅度的向量。
    6. 基于张量的融合则通过某些特定的张量运算(如外积和多项式张量池化)来利用不同表示之间的相关性。这些用于深度模型的融合方法能够从大量数据中进行端到端学习,性能良好,但解释性较差。

        以上特征融合方法的一个重要特性是它们是否支持视频中的时序建模。显然,早期融合能够支持时序建模,而晚期融合和混合融合则不能,因为在晚期融合之前,每个模态的预测结果已经是已知的。对于基于模型的融合,除了基于核的融合外,所有其他方法都可以用于时序建模,例如基于图的融合方法中使用的隐马尔可夫模型(HMM)和条件随机场(CRF),以及神经网络融合中使用的 RNN 和 LSTM 网络。

C. 多模态情感识别的分类器优化

        对于表示为词嵌入序列的文本,最常见的方法是利用 RNN 和 CNN 来挖掘单词之间的语义关系。典型的 RNN,如 LSTM,包含一系列结构相同的单元。每个单元接收一个词嵌入和上一个单元的隐藏状态作为输入,计算输出并更新隐藏状态,以供下一个单元使用。隐藏状态记录了前面单词的语义信息。CNN 通过卷积操作计算连续单词之间的局部上下文特征,随后使用平均池化或最大池化层进一步整合这些特征,以进行情感分类。最近,研究者开始使用基于 Transformer 的方法,如 BERT 和 GPT-3。Transformer 由一系列模块组成,其中包含多头自注意力层、规范化层、前馈网络和另一个规范化层。文本中的单词顺序由另一个**位置嵌入层**表示。与 RNN 不同,Transformer 不需要对单词进行顺序处理,这提高了并行性。与 CNN 相比,Transformer 能够建模更远距离的单词之间的关系。

  • 音频情感识别中,常用的分类方法包括传统方法和基于深度学习的方法。对于传统方法,隐马尔可夫模型(HMM)因其能够捕捉序列数据的动态特征而广泛应用。支持向量机(SVM)也常用于音频情感识别。随着时间推移,基于深度学习的方法越来越受欢迎,因为它们不受 HMM 模型的经典独立假设的限制。值得一提的是,带有注意力机制的序列到序列模型已成功地实现端到端的处理。近年来,一些方法通过开发深度混合卷积和循环模型,在该领域显著提升了性能【14】
  • 在早期,类似于其他模态中的情感分类任务,图像情感分类任务中将多个手工设计的图像特征进行整合,并输入 SVM 中训练分类器。随后,基于深度学习的分类器与特征提取器相连接,通过相应的损失函数(如交叉熵损失)进行端到端优化【26】。此外,流行的度量损失(如三元组损失和 N 对损失)也参与了网络的优化,以获取更具判别性的特征。使用这种学习范式,每张图像被预测为一个主要的情感类别。然而,基于心理学理论,一张图像可能在观众中唤起多种情感,这导致了模糊问题。为了解决该问题,采用**标签分布学习**来为每个情感类别预测一个具体的相对权重,常用的损失函数是 Kullback-Leibler 散度。图像中的某些信息丰富且引人注目的区域往往决定了图像的情感。因此,构建了一系列具有额外注意力机制或检测分支的网络。通过对多任务进行优化(包括注意力任务和原始任务),可以获得更为鲁棒且判别性强的模型。
  • 大多数现有方法使用两阶段流程来识别视频中的情感,即提取视觉和/或音频特征,然后训练分类器。为了训练分类器,许多机器学习方法被用于建模视频特征与离散情感类别之间的映射关系,包括 SVM、高斯混合模型(GMM)、隐马尔可夫模型(HMM)、动态贝叶斯网络(DBN)和条件随机场(CRF)。尽管上述方法促进了视频情感识别的发展,近年来基于深度神经网络的端到端方法由于其强大的能力被提出来进行视频情感识别【27】。基于 CNN 的方法首先通过 3D 卷积神经网络提取包含情感信息的高层次时空特征,然后使用全连接层对情感进行分类。最后,通过损失函数对整个网络进行优化。受人类感知情感过程的启发,基于 CNN 的方法使用注意力机制来强调视频中帧或片段的情感相关区域。此外,考虑到情感极性层次结构约束,最近的一些方法提出了**极性一致性交叉熵损失**,以引导注意力生成。
  • 步态可以表示为步态视频中每帧的 2D 或 3D 关节坐标序列。为了利用关节坐标中的内在情感线索,许多分类器或架构用于提取步态中的情感特征。LSTM 网络包含许多特殊单元,即记忆单元,能够存储特定时间步长的数据序列中的关节坐标信息。因此,它被用于早期的步态情感识别工作。LSTM 的隐藏特征可以进一步与手工设计的情感特征进行拼接,然后输入分类器(如 SVM 或随机森林)以预测情感。近年来,另一个流行的网络是**时空图卷积网络(ST-GCN)**,最初用于从人体骨骼图中识别动作。“空间”表示骨骼结构中的空间边缘,即连接身体关节的肢体;“时间”表示时间边缘,它们连接不同帧中每个关节的位置。ST-GCN 的实现非常简单,可以将其视为一个空间卷积后跟一个时间卷积,这与深度卷积网络类似。
  • EEG 情感识别通常使用各种分类器(如 SVM、决策树和 K 近邻)对手工设计的特征进行分类。在早期阶段,CNN 和 RNN 擅长提取 EEG 信号的空间和时间信息,因此基于级联卷积递归网络(结合 CNN 和 RNN)、LSTM-RNN 和并行卷积递归神经网络的端到端结构被成功应用于情感识别任务。

8. APPLICATIONS

9. FUTURE DIRECTIONS未来方向

尽管多模态情感识别(MER)已经取得了显著的进展,但仍有许多领域需要进一步探索和改进。本节将讨论 MER 研究的几个未来方向。

A. 高级情感表征

当前的 MER 系统大多关注基础情感的识别,例如 Ekman 的六种基本情感。然而,真实世界中的情感往往更加复杂和细微。未来的研究应着眼于更高阶的情感表征,包括情感的混合体和情感的动态变化。例如,在同一时刻,个体可能同时感受到快乐和悲伤的交织,或在短时间内经历从愤怒到平静的情感波动。为此,研究者可以探索更具表现力的情感表征模型,并结合情感的时间动态特征,开发新的算法以捕捉这些复杂的情感状态【31】。

B. 更自然的多模态交互

        当前的大多数 MER 系统依赖于结构化的、离线的环境进行情感识别。然而,在实际应用中,情感表达和交互往往是在更加自然和动态的情境下进行的。未来的 MER 系统应能够在非结构化环境中进行有效的情感识别,甚至应具备适应用户情感变化的能力。例如,在人机交互的应用中,情感识别系统应能够在对话和情境变化中快速响应用户的情感,并在实时交互中做出适当的反应。此外,系统需要能够处理长时间的连续情感数据,从而提升与人类的互动体验。

C. 多样化和情境感知的情感识别

        当前的大多数 MER 研究集中在特定的实验环境中进行,情感刺激和反应通常是通过人工设置的。然而,情感的表达和感知通常受情境的影响。在不同的文化背景、社交环境和个人历史下,情感的表达方式和解读可能会发生变化。因此,未来的 MER 系统应该能够处理多样化的情境,并具备情境感知的能力。研究者可以开发新的算法,结合情境信息(如位置、时间、社交环境)来进行情感识别,从而提高识别的准确性和鲁棒性。

D. 跨文化情感识别

        情感的表达和感知在不同文化之间具有显著的差异。当前的大多数 MER 系统是在单一文化背景下开发和测试的,这限制了它们在全球范围内的适用性。未来的研究需要更多关注跨文化情感识别,研究如何构建能够跨越文化差异的通用 MER 系统。例如,不同文化背景下的面部表情、语音模式和身体语言可能有所不同,因此,情感识别模型应能够适应这些差异。为此,跨文化数据集的开发以及针对不同文化的特征提取方法的研究将成为重要的研究方向【32】。

E. 数据隐私与伦理

        随着 MER 技术在日常生活中的应用越来越广泛,个人数据的隐私问题变得越来越重要。情感数据通常是非常私密的,未经用户同意进行情感监控和数据收集可能会引发伦理问题。因此,未来的 MER 研究需要考虑如何在保护用户隐私的前提下进行情感识别。开发隐私保护技术,如数据加密、联邦学习和差分隐私,将有助于确保用户的情感数据安全。与此同时,还需要制定相应的伦理准则,确保 MER 系统的使用符合伦理规范。

F. 强化学习与自适应情感系统

        未来的 MER 系统不仅需要识别用户的情感状态,还需要能够自适应地与用户进行情感交互。例如,在虚拟助手或机器人中,情感识别系统应能够根据用户的情感状态动态调整其行为和回应。为此,强化学习技术可以用于训练系统,使其在与用户的长期交互中不断学习和适应用户的情感变化。此外,开发具有自适应能力的情感系统能够提高人机交互的自然性和用户体验。

G. 高效和轻量化的 MER 系统

        当前的大多数 MER 系统依赖于复杂的深度学习模型,通常需要大量的计算资源和高质量的数据进行训练。这使得这些系统难以在资源受限的环境中部署,例如移动设备或边缘计算环境。未来的研究应致力于开发更加高效和轻量化的 MER 模型,这些模型能够在计算资源有限的情况下保持良好的性能。为此,研究者可以探索模型压缩、知识蒸馏和稀疏表示等技术,降低模型的复杂性和计算成本,从而使 MER 技术在更广泛的设备和应用场景中得到应用。

H. 多任务学习与情感识别的扩展

        在实际应用中,情感识别通常不是孤立的任务。它可能与其他任务(如语音识别、情感生成、行为预测)紧密相关。未来的 MER 系统可以通过多任务学习的方式,结合其他任务的上下文信息,提升情感识别的性能。例如,在人机交互系统中,情感识别可以与语音识别或手势识别任务相结合,通过共享的表示或学习策略提高整体的识别效果。此外,多任务学习还能有效缓解标注数据稀缺的问题,因为不同任务可以共享部分标注数据,从而提高模型的泛化能力【33】。

I. 开放和标准化的情感数据集

虽然当前已有许多公开的情感数据集,但这些数据集在规模、模态和情境方面仍然有限。未来的 MER 研究需要开发更大规模、更具代表性和多样化的情感数据集,并推动情感数据集的开放和标准化。这些数据集应涵盖不同的文化背景、多种模态和各种情境,以提高 MER 系统的鲁棒性和泛化能力。与此同时,数据集的标注应更加精细和标准化,确保研究人员可以在相同的基准上进行公平的比较和评估。

        综上所述,尽管 MER 技术已经取得了显著的进步,但未来仍有许多值得探索和改进的方向。随着这些领域的不断发展,MER 技术有望在医疗、教育、娱乐、人机交互等多个应用场景中发挥更大的作用,并带来更加智能和个性化的用户体验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值