目录
MISA:多模态情感分析的模态不变和特定表示
摘要
多模态情感分析是一个活跃的研究领域,它利用多模态信号对用户生成的视频进行情感理解。解决这一任务的主要方法是开发复杂的融合技术。然而,信号的异构性造成了分配模态差距,带来了重大挑战。在本文中,我们的目标是学习有效的模态表示以帮助融合过程。我们提出了一个新颖的框架 MISA,它将每种模态投影到两个不同的子空间。第一个子空间是模态不变的,其中跨模态的表示学习它们的共性并减少模态差距。第二个子空间是特定于模态的,它是每种模态私有的,并捕获它们的特征。这些表示提供了多模态数据的整体视图,用于进行融合以进行任务预测。我们对流行的情绪分析基准 MOSI 和 MOSEI 进行的实验表明,与最先进的模型相比,取得了显着的进步。我们还考虑了多模态幽默检测的任务,并在最近提出的 UR_FUNNY 数据集上进行实验。在这方面,我们的模型也比强大的基线表现得更好,将 MISA 确立为有用的多模式框架。
CCS 概念
• 计算方法 → 神经网络; • 信息系统→多媒体信息系统;情绪分析。 关键词 多模态情感分析;多模态表示学习 ACM 参考格式:Devamanyu Hazarika、Roger Zimmermann 和 Soujanya Poria。 2020.MISA:多模态情感分析的模态不变和特定表示。第 28 届 ACM 国际多媒体会议 (MM ’20) 会议记录,2020 年 10 月 12 日至 16 日,美国华盛顿州西雅图。 ACM,美国纽约州纽约市,10 页。 MISA | Proceedings of the 28th ACM International Conference on Multimedia
1 简介
随着用户生成的在线内容(例如视频)的丰富,人类口语的多模态情感分析(MSA)语言已成为一个重要的研究领域[33, 45]。与在孤立模态(例如文本、语音)上执行的传统情感学习任务不同,多模态学习利用多种信息源,包括语言(文本/转录/ASR)、音频/声学和视觉模态。 MSA 中的大多数方法都以开发复杂的融合机制为中心,这些机制涵盖从基于注意力的模型到基于张量的融合[41]。尽管取得了进步,这些融合技术常常受到异构模态之间持续存在的模态差距的挑战。此外,我们希望融合互补信息以最大程度地减少冗余并合并多样化的信息。帮助多模态融合的一种方法是首先学习捕获这些所需属性的潜在模态表示。为此,我们提出了 MISA,一种新颖的多模态框架,它可以学习每种模态的分解子空间,并提供更好的表示作为融合的输入。
受领域适应领域最新进展的推动 [5],MISA 为每种模态学习两种不同的话语表示。 第一种表示是模态不变的,旨在减少模态差距。在这里,话语的所有模态都被映射到具有分布对齐的共享子空间。尽管多模态信号来自不同的来源,但它们具有说话者的共同动机和目标,这决定了话语的整体情感状态。不变映射有助于捕获这些潜在的共性和相关特征,作为共享子空间上的对齐投影。大多数先前的工作在融合之前都没有利用这种对齐,这给它们的融合带来了额外的负担,以弥合模态差距并学习共同特征。
除了不变子空间之外,MISA 还学习每种模态私有的模态特定特征。对于任何话语,每种模态都具有独特的特征,其中包括说话者敏感的风格信息。这种特殊的细节通常与其他模式不相关,并被归类为噪声。尽管如此,它们在预测情感状态方面可能很有用——例如,说话者的讽刺倾向或偏向情感极性的特殊表达。因此,学习这种特定于模态的特征补充了在不变空间中捕获的常见潜在特征,并提供了话语的全面多模态表示。我们建议使用这整套表示进行融合(见图 1)。
为了学习这些子空间,我们结合了损失的组合,包括分布相似性损失(对于不变特征)、正交损失(对于特定特征)、重建损失(对于模态特征的代表性)和任务预测损失。 我们在 MSA 的两个流行基准数据集——MOSI 和 MOSEI 上评估了我们的假设。我们还检查了我们的模型对另一个类似任务的适应性——多模态幽默检测(MHD),我们评估了最近提出的 UR_FUNNY 数据集。在所有这三种情况下,我们都观察到超越最先进模型的强劲收益,凸显了 MISA 的功效。
本文的新颖贡献可以概括为:
- • 我们提出了MISA——一种简单而灵活的多模态学习框架,强调多模态表示学习作为多模态融合的先驱。 MISA 学习模态不变和特定模态表示,以提供多模态数据的全面且清晰的视图,从而有助于融合来预测情感状态。
- • MSA 和MHD 任务的实验证明了MISA 的强大功能,其中学习到的表示有助于简单的融合策略超越复杂的最先进模型。
2 相关工作
2.1 多模态情感分析。
MSA 中的文献可大致分为:(i) 话语级别 (ii) 话语间上下文模型。虽然话语级算法单独考虑目标话语,但上下文算法利用整个视频中的相邻话语。 话语级别。这一类别的拟议工作主要集中于使用复杂的融合机制学习跨模态动力学。这些工作包括多种方法,例如多核学习[42]和基于张量的融合(包括其低秩变体)[15,21,26,29,31,58]。虽然这些作品对话语的表示进行融合,但另一项工作采用细粒度的视图来在单词级别进行融合。方法包括多模态感知词嵌入[56]、循环多阶段融合[24]、基于图的融合[30, 60]、循环网络(RNN)、注意力模型、记忆机制和基于变压器的模型[8 , 46, 46, 52, 56, 59–61]。 话语间上下文。这些模型利用目标话语周围话语的上下文。它们被设计为分层网络,在较低层对个体话语进行建模,在第二层对话语间顺序信息进行建模。茯苓等。提出了第一个模型 bc-LSTM,它利用这种设计以及双向 LSTM 进行话语间表示学习,将整个问题构建为结构化预测(序列标记)任务 [44]。后来的工作涉及使用注意力 [7,17,43] 改进融合,分层融合 [32],或开发更好的上下文建模 [2,6,7,16]。 我们的工作与这些现有的工作有根本的不同。 我们不使用上下文信息,也不关注复杂的融合机制。相反,我们强调融合之前表示学习的重要性。尽管如此,如果需要,MISA 可以灵活地合并这些上述组件。
2.2 多模态表示学习。
公共子空间表示。尝试学习跨模态公共子空间的工作可以大致分为:(i)基于翻译的模型,使用序列到序列[40]、循环翻译[39]和对抗性等方法将一种模态转换为另一种模态。自动编码器[30]; (ii) 基于相关性的模型 [50],使用典型相关分析 [3] 学习跨模态相关性; (iii) 使用对抗性学习等技术学习一个新的共享子空间,其中所有模式同时映射[35, 37]。与第三类类似,我们也学习常见的模态不变子空间。 然而,我们不使用对抗性判别器来学习共享映射。此外,我们还结合了正交模态特定表示——这是多模态学习任务中较少探索的一个特征。
因式分解表示。在子空间学习的体系内,我们将注意力转向因式分解表示。虽然其中一项工作试图学习多模态数据的生成判别因素[51],但我们的重点是学习模态不变和特定的表示。为了实现这一目标,我们从共享-私有表示的相关文献中获取动力。
共享-私有[5]学习的起源可以在多视图成分分析[48]中找到。这些早期作品设计了具有单独的共享和私有潜在变量的潜在变量模型(LVM)[9]。王等人。 [55]通过提出概率CCA——深度变分CCA,重新审视了这个框架。与这些模型不同,我们的建议涉及一种有判别力的深度神经架构,它消除了近似推理的需要。
我们的框架与域分离网络(DSN)[5]密切相关,它提出了域适应的共享-私有模型。 DSN 在多任务文本分类等领域的类似模型的开发中具有影响力[25]。 尽管我们从 DSN 中获得灵感,但 MISA 包含关键区别:(i)DSN 学习跨实例的分解表示,而 MISA 学习实例(话语)内模态的表示; (ii) 与 DSN 不同,我们在对抗性训练或 MMD 上使用更先进的分布相似性度量——CMD(参见第 3.5 节); (iii) 我们在特定模态(私有)表示中纳入额外的正交损失(参见第 3.5.2 节); (iv) 最后,虽然 DSN 仅使用共享表示进行任务预测,但 MISA 结合了不变表示和特定表示进行融合,然后进行任务预测。 我们认为,利用两种模态表示有助于通过提供多模态数据的整体视图来帮助融合。