(2021 AAAI) Self_MM

VIP文章 up up up！

已于 2024-03-21 19:16:22 修改

阅读量1.1k

点赞数 26

分类专栏： NLP 多模态情感分析文章标签：深度学习人工智能机器学习

于 2024-03-12 18:37:43 首次发布

本文链接：https://blog.csdn.net/qq_42882082/article/details/135860700

版权

《Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis》

Abstract

表征学习是多模态学习中一项重要而富有挑战性的任务。有效的模态表示应该包含两部分特征：一致性和差异性。由于多模态标注的统一性，现有的方法在捕捉差异性信息方面受到限制。然而，额外的单模态标注耗费的时间和人力成本较高。本文设计了基于自监督学习策略的标签生成模块，获取独立的单模态监督。然后，联合训练多模态和单模态任务，分别学习一致性和差异性。此外，在训练阶段，我们设计了一种权重调整策略来平衡不同子任务之间的学习进度。即引导各子任务关注模态监督之间差异较大的样本。最后，我们在三个公共多模态基线数据集上进行了大量实验。实验结果验证了自动生成的单模态监督的可靠性和稳定性。在MOSI和MOSEI数据集上，我们的方法超越了目前最先进的方法。在SIMS数据集上，我们的方法实现了比人工标注的单模态标签相当的性能。完整代码:click here

1. Introduction

近年来，多模态情感分析（Multimodal Sentiment Analysis，MSA）吸引了越来越多的关注（Zadeh et al.2017；Tsai et al.2019；Poria et al.2020）。与单模态情感分析相比，多模态模型在处理社交媒体数据时更加稳健，并实现了突出的改进。随着用户生成的在线内容的蓬勃发展，MSA已经被引入到风险管理、视频理解、视频转录等诸多应用中。

虽然之前的工作在基准数据集上取得了令人印象深刻的改进，但MSA仍然充满了挑战。Baltrusaitis、Ahuja和Morency（2019）指出了多模态学习的五个核心挑战：对齐、翻译、表示、融合和共同学习。

其中，表示学习处于基础地位。在最近的工作中，Hazarika、Zimmermann和Poria（2020）指出，单模态表征应该包含一致和互补的信息。根据表征学习中引导的不同，我们将现有的方法分为前向引导和后向引导两类。在前向引导方法中，研究者致力于设计交互式模块来捕捉跨模态信息（Zadeh等2018a；Sun等2020；Tsai等2019；Rahman等2020）。然而，由于统一的多模态标注，它们很难捕获模态特定信息。在后向引导方法中，研究者提出了额外的损失函数作为先验约束，这使得模态表示既包含一致的信息，又包含互补的信息(CH-SIMS:Yu et al. 2020a; MISA: Hazarika, Zimmermann, and Poria 2020)。

Yu等人（CH-SIMS:2020a）引入了独立的单模态人类注释。通过联合学习单模态和多模态任务，所提出的多任务多模态框架同时学习了特定模态和模态不变的表征。Hazarika、Zimmermann和Poria(MISA: 2020)设计了两个不同的编码器，将每个模态投射到模态不变和模态特定空间。据称，两个正则化组件可以帮助模态不变和模态特定的表征学习。然而，在前者中，单模态标注需要额外的人力成本，在后者中，空间差异难以表示模态特定的差异。此外，它们需要手动平衡全局损失函数中约束成分之间的权重，这高度依赖于人类的经验。

在本文中，我们专注于后向引导方法。在独立的单模态标注和先进的特定模态表示学习的激励下，我们提出了一种新型的自我监督多任务学习策略。与Yu等人(CH-SIMS:2020a)不同，我们的方法不需要人类注释的单模态标签，而是使用自动生成的单模态标签。它基于两个直觉。首先，标签差异与模态表示和类中心之间的距离差异正相关。第二，单模态标签与多模态标签高度相关。因此，我们设计了基于多模态标签和模态表示的单模态标签生成模块。具体内容见3.3节。

考虑到自动生成的单模标签在初始阶段不够稳定，我们设计了一种基于动量的更新方法，对后面生成的单模标签应用较大的权重。此外，我们引入了一种自调整策略，在整合最终的多任务损失函数时，调整每个子任务的权重。我们认为，对于标签差异较小的子任务，在自动生成的单模态标签和人工标注的多模态标签之间，很难学习到模态特定的表示。因此，子任务的权重与标签差异呈正相关。

我们工作的新贡献可以总结如下：

我们提出了基于模态表示与类中心之间距离的相对距离值，与模型输出呈正相关。
我们设计了基于自监督策略的单模态标签生成模块。此外，我们还引入了一种新的权重自调整策略，以平衡不同的任务损失约束。
在三个基准数据集上的广泛实验验证了自动生成的单模态标签的稳定性和可靠性。此外，我们的方法优于当前最先进的结果。

图1:单模态标签和多模态标签的例子，来自Zadeh等人(2017)。绿色虚线表示反向传播的过程。

图1中黑箭头是正向引导，绿色虚线箭头是反向引导，可见统一的多模态注释并不一定适用于单模态的学习，反向引导中更注重同时包含一致性和互补性的信息。

2. Related Work

在本节中，我们主要讨论多模态情感分析和多任务学习领域的相关工作。我们也强调了我们工作的创新之处。

2.1 多模态情感分析

多模态情感分析已经成为一个重要的研究课题，它整合了视觉、听觉等语言和非语言信息。以往的研究者主要集中在表征学习和多模态融合方面。对于表征学习方法，Wang等（2019）构建了一个recurrent attended variation embedding network来生成多模态shifting。Hazarika、Zimmermann和Poria（MISA: 2020）提出了多模态学习中的模态不变和模态特定的表示方法。对于多模态融合，根据融合阶段，以往的工作可以分为两类：早期融合和后期融合。早期融合方法通常采用精细的注意机制进行跨模态融合。Zadeh et al. (Memory fusion network for multi-view sequential learning:2018a)设计了一个跨视角交互的记忆融合网络。Tsai等(Multimodal transformer for unaligned multimodal language sequences:2019)提出了跨模态变换器，学习跨模态的注意力来强化目标模态。后期融合方法先学习模态内表示，最后进行模态间融合。Zadeh等(Tensor fusion network for multimodal sentiment analysis: 2017) 使用了张量融合网络，通过计算单模态表示之间的外积获得张量表示。Liu等（Efficient Low-rank Multimodal Fusion With Modality-Specific Factors:2018）提出了一种低阶多模态融合方法，以降低基于张量方法的计算复杂度。

我们的工作目标是基于后期融合结构的表示学习。与以往的研究不同，我们采用自我监督策略联合学习单模态和多模态任务。我们的方法从多模态任务中学习相似性信息，从单模态任务中学习差异性信息。

2.2 Transformer and BERT

Transformer是一个序列到序列的架构，没有递归结构（Attention is all you need.Vaswani等，2017）。它用于对顺序数据进行建模，在结果、速度和深度上都比循环结构有优越的表现。BERT（Bidirectional Encoder Representations from Transformers）（Pre-training of deep bidirectional transformers for language understanding：Devlin等，2018）是在Transformer上的成功应用。预训练的BERT模型在多个NLP任务中取得了显著的改进。在多模态学习中，预训练的BERT也取得了显著的效果。目前，使用预训练BERT有两种方法。第一种是将预训练的BERT作为语言特征提取模块（MISA:Hazarika，Zimmermann和Poria，2020）。第二种是在中间层整合声学和视觉信息（Learning Factorized Multimodal Representations:Tsai et al. 2019；Integrating Multimodal
Information in Large Pretrained Transformers: Rahman et al. 2020). 在本文中，我们采用第一种方式，并针对我们的任务对预训练的BERT进行微调。

2.3 多任务学习

多任务学习旨在通过利用不同任务中包含的知识来提高多个相关任务的泛化性能（A Survey on Multi-Task Learning:Zhang和Yang，2017）。与单任务学习相比，多任务学习在训练阶段主要有两个挑战。第一是如何共享网络参数，包括硬共享和软共享方法。第二是如何平衡不同任务的学习过程。最近，多任务学习在MSA中得到了广泛的应用(Liu等，2