Emotion Recognition from Multiple Modalities:Fundamentals and Methodologies
Q1期刊;2021
论文链接:https://arxiv.org/pdf/2108.10152
文章总结
多模态情感识别(MER)作为一个新兴的跨学科研究领域,已引起了广泛的关注。
它通过结合来自不同模态的数据,如文本、音频、图像、视频、面部表情、语音信号和生理信号,来实现更为全面和准确的情感识别。本文综述了 MER 的各个方面,涵盖了心理模型、情感模态、数据收集与情感标注、计算任务、挑战、计算方法以及应用场景。
- 首先,本文讨论了两类心理学情感模型,即类别情感状态(CES)模型和维度情感空间(DES)模型,这些模型为情感的表征和计算提供了理论基础。
- 接着,我们介绍了 MER 中常用的情感模态,既包括通过身体变化捕捉的显式情感线索(如面部表情和语音),也包括通过数字媒体隐含表达的情感刺激(如文本和视频)。
- 数据收集与标注部分则讨论了如何通过现有资源或新采集的数据为情感识别构建大规模的多模态数据集。
- 本文还详细讨论了 MER 中涉及的主要计算任务,包括分类、回归、检测和检索。每项任务都有其特定的挑战和技术要求。
- 我们指出,MER 的主要挑战在于情感差距、感知主观性、数据不完整性、跨模态不一致性、跨模态不平衡,以及标签噪声与缺失等问题。
- 在计算方法方面,本文讨论了情感模态的表示学习、特征融合和分类器优化的不同策略。我们展示了如何通过早期融合、晚期融合和基于模型的融合方法来整合多模态信息,以提高情感识别的性能。此外,未来的情感识别研究也应着重于提高情感模型的鲁棒性和解释性。
- 最后,我们讨论了 MER 的实际应用领域,包括医疗健康、人机交互、教育、娱乐、广告、安全与监控等多个场景。随着情感智能技术的发展,MER 有望在这些领域中发挥越来越重要的作用。
- 我们还提出了 MER 研究的若干未来方向,如高级情感表征、更自然的多模态交互、跨文化情感识别、数据隐私保护和自适应情感系统等。
总的来说,MER 技术通过融合多种模态的情感线索,提供了一个强大的工具,能够提升情感智能的表现和应用。未来的研究将继续推动这一领域的发展,促使 MER 技术在更多的实际应用中得到广泛采用。
1. Introduction
前两段交代情感的重要性。
使智能机器具备类人情感表达的第一步是通过两类情感模态识别并理解人类的情感:显式情感线索(explicit affective cues)和隐式情感刺激(implicit affective stimuli)。显式情感线索是指人类可以直接观察和记录的特定身体和心理变化,例如面部表情、眼球运动、语音、动作和生理信号。这些信号有时可以被有意抑制或掩饰,或者难以捕捉。与此同时,移动设备和社交网络的普及使得人们习惯于在线分享他们的经历和表达观点,使用文本、图像、音频和视频来表达情感。隐式情感刺激指的是这些常见的数字媒体,通过分析这些内容,可以间接推断出人类的情感。
无论情感是通过显式还是隐式方式表达的,通常都涉及多种模态,如图1所示。与单一模态情感识别相比,多模态情感识别(MER)具有多重优势。首先,数据互补性:来自不同模态的线索可以相互补充。例如,当我们看到好友发了一条“天气真好!”的帖子时,很有可能他们是在表达积极的情感,但如果帖子的配图是一场风暴,我们可以推测这实际上是讽刺,意图表达消极情绪。其次,模型鲁棒性:由于数据采集中常见的因素,如传感器设备故障,某些模态的数据可能无法获得,尤其是在现实环境中。例如,在包含语音、面部表情和手势模态的 CALLAS 数据集中,对于一些暂时不动的用户,手势数据缺失。在这种情况下,训练好的 MER 模型可以利用其他可用模态继续工作。最后,性能优势:综合考虑不同模态的互补信息可以提高识别性能。元分析表明,与表现最好的单一模态相比,MER 的平均性能提升了 9.83%。
本文将对 MER 的各个方面进行全面的介绍,包括心理模型、情感模态、数据收集与情感标注、计算任务、挑战、计算方法、应用及未来方向。目前已有一些关于 MER 相关主题的综述和调研文章,然而,它们或是着重于多模态情感融合技术,或是定量的系统分析。本文不同于以往的工作,我们旨在提供一个简明且全面的 MER 入门教程,适合非专业人士快速上手并理解这一领域。
2. PSYCHOLOGICAL MODELS心理模型
在心理学中,情感测量的模型主要分为两类:类别情感状态(CES:categorical emotion states)模型和维度情感空间(DES: dimensional emotion space)模型。
- 类别情感状态(CES)模型将情感定义为几个基本类别,例如二元情感(正面和负面,有时包括中立),Ekman 的六种基本情感(正面的快乐、惊讶和负面的愤怒、厌恶、恐惧、悲伤),Mikels 的八种情感(正面的娱乐、敬畏、满足、兴奋和负面的愤怒、厌恶、恐惧、悲伤),Plutchik 的情感轮(八个基本情感类别,每种情感有三种强度),以及 Parrott 的情感树状层次结构(一级、二级和三级情感类别)。随着心理学理论的发展,CES 模型越来越多样化和细化。
- 维度情感空间(DES)模型则采用二维、三维或更高维的笛卡尔空间来表示情感;其中最广泛使用的 DES 模型是愉悦度-唤醒度-支配度(VAD)模型,其中,愉悦度表示情感的愉快程度,唤醒度表示情感的强度,支配度表示情感的控制程度。
CES 模型更符合人类的直觉感知,但心理学家尚未就应包含多少离散情感类别达成共识。此外,情感是复杂而微妙的,有限的离散类别难以全面反映情感的多样性。相比之下,DES 模型理论上可以将所有情感表示为连续笛卡尔空间中的不同坐标点,但这些绝对的连续值超出了普通用户的理解能力。这两类情感定义是相互关联的,CES 模型和 DES 模型之间可以相互转换。例如,愤怒可以对应于负面愉悦度、高唤醒度和高支配度。
除了情感之外,情感计算领域中还有其他广泛使用的概念,如心情、情感、情绪和情感倾向。情感可以是预期的、引发的或感知的。本文不区分这些概念的差异或关联,详情可参考文献[11]。
3. AFFECTIVE MODALITIES情感模态
在多模态情感识别(MER)领域,通常使用多种模态来识别和预测人类的情感。MER 中的情感模态大致可分为两类:一类是通过人类身体变化来识别情感的显式情感线索&#x