SUGRM(2023 ACL fingds)

本文提出了一种名为SUGRM的新框架,用于多模态情感分析(MSA)。通过模态重校准模块(MRM)和单模态标签生成模块(ULGM),该框架能自动生成单模态标签,以辅助多模态任务的学习。实验结果显示,SUGRM在CMU-MOSI和CMU-MOSEI数据集上实现了优越性能,验证了其有效性和对多模态数据表示学习的优化能力。
摘要由CSDN通过智能技术生成
Self-Supervised Unimodal Label Generation Strategy Using Recalibrated
Modality Representations for Multimodal Sentiment Analysis
题目:基于重校准模态表示的多模态情感分析的自监督单模态标签生成策略

Abstract

      在过去的几年中,多模态情感分析(MSA)得到了广泛的关注,但大多数研究的重点都局限于构建多模态表示,捕捉单个任务中不同模态之间的交互作用。这在很大程度上是因为MSA基准测试数据集中缺乏单模态注释。然而,由于对每个单模态表示的学习不足,仅使用多模态表示的模型训练可能导致次优性能。在这项工作中,为了充分优化多模态数据的学习表示,我们提出了SUGRM,该算法使用重新校准的特征联合训练多模态和单模态任务。这些特征被重新校准,这样模型就可以根据其他模态的特征学习不同的特征权重。此外,为了利用单模态任务,我们通过单模态标签生成模块(ULGM)自动生成单模态注释。在两个基准数据集上的实验结果验证了该框架的有效性。

1. Introduction  

       大多数关于MSA的现有研究都围绕着通过复杂的融合方法 从基于张量的方法到基于注意的方法,学习过程发生在单个任务中。由于基准数据集CMU-MOSI和CMU-MOSEI的性质,单任务学习是MSA中的主要学习框架。考虑到所有的模态,由于标注过程繁琐,两个数据集中只标注了一个综合情感强度值(即多模态标签 y_{m})单模态标签( y_{t} \, \, \, \, y_{v} \, \, \, \, y_{a} )在数据集中被省略。然而,最近的一项研究(Yu et al., 2021)认为,单模态标签的缺乏阻碍了捕获模态特定信息,并提出了一个模块,可以从多模态标签自动生成单模态标签

     我们提出了一个新的框架SUGRM,它使用重新校准的模态表示的MSA的自监督单模态标签生成策略。首先,我们使用模态重校准模块(MRM)重新校准模态表示。这使得模型可以根据其他模态的特征动态调整特征此外,在Self-MM的推动下,我们提出了一种新的单模态标签生成模块(ULGM),该模块基于多模态标签( y_{m} ),以自监督的方式生成单模态标( y_{t} \, \, \, \, y_{v} \, \, \, \, y_{a} )

      与Self-MM留每个模态的特征空间不同,我们将每个模态的特征投射到一个共同的语义特征空间中。因此,我们的ULGM假设在一个共同的语义特征空间中,两个特征之间的距离与标签空间中相应标签之间的距离成正比。这不仅可以简化偏移量的计算(见3.3节),而且也避免了Self-MM中的问题: 即当一个多模态特征到负多模态特征中心的距离和到正多模态特征中心的距离近似相等时,生成的单模态标签发散。这可能会导致学习不稳定,潜在地导致模型陷入局部极小值。

      我们的实验结果不仅验证了我们的假设,而且也证明了使用重新校准的模态表示和我们的ULGM可以提高性能。我们的工作主要贡献如下:

  • 我们为MSA引入了模态重校准模块(MRM),该模块可以根据其他模态的特征重新校准模态特征。
  • 我们设计了一种新的单模态标签生成模块(ULGM),将MSA扩展到多任务学习,并联合训练单模态和多模态任务。
  • 我们的方法不仅优于之前的SOTA结果,而且实验结果验证了我们框架的有效性。

2. Related Work

      以往的研究主要集中在提高多模态融合和学习联合表征方面。在前期工作中,早期融合(Pérez-Rosas et al., 2013;Poria et al., 2016)和晚期融合(Zadeh et al., 2016)是流行的融合方法,结合多种模式。随后,利用多维张量(Zadeh et al., 2017)、注意机制(Zadeh et al., 2018a,b)、多阶段融合(Liang et al., 2018)和低秩张量(Liu et al., 2018)提出了更复杂的融合方法,以提高融合效率(Liu et al., 2018)。在(Wang et al., 2019)中,作者通过计算伴随的非语言信息引起的偏移来动态调整单词表征。最近的工作集中于应用Transformer体系结构,以更好地捕获模式之间的交互并学习特征表示。例如,(Rahman et al., 2020)直接建立在(Wang et al., 2019)的基础上,但使用了经过训练的基于Transformer的语言模型来提高性能。(Tsai et al., 2019)提出了跨模态注意,以从源模态中潜在地适应目标模态。(Cheng et al., 2021)在(Tsai et al., 2019)中通过生成稀疏注意矩阵并将一个长序列压缩为一个短序列,减少了计算量。此外,多任务学习方法已在最近的MSA中应用(Akhtar等人,2019;Yu等人,2021)来提高数据效率。

       在Self-MM的启发下,我们将MSA的学习框架扩展到多任务学习。多任务学习的好处是,每一项任务都有助于其他任务的学习过程。这允许模型更好地学习跨任务共享的泛化表示。进一步,我们重新校准了每个模态的特征,并通过采用(Hu et al., 2018; Vaezi Joze et al., 2020; Cheng et al.,2021)的工作有效地建模 模态间、模态内的关系。

3. Methdology

3.1 问题定义

       模型的输入定义为 I_{s}\in \left \{ t,a,v \right \},模型目标是将 I_{s} 作为输入,预测一个情绪强度 \hat{y}\in R。为帮助学习过程,我们的模型在训练过程中为每个模态 y_{s}\in R生成标签。

3.2 整体架构

      我们的框架由多模态和单模态任务组成,它们共享模态表示,如图1所示。

图1:SUGRM的总体架构

y_{t} \, \, \, \, y_{v} \, \, \, \, y_{a} 是基于多模态标签 y_{m} 和ULGM生成的单模态标签

  • 9
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值