(2023 ArXiv)Cross-Attention is Not Enough: Incongruity-Aware Hierarchical MSA and ER

摘要

融合多种模式的情感计算任务已被证明是有效的性能改进。然而,多模态融合是如何工作的还没有被很好地理解,它在现实世界中的使用通常会导致大的模型尺寸。在此工作中,在情绪和情绪分析方面,我们首先分析了在跨模态注意中,一种模态中的显著情感信息如何受到另一种模态的影响。我们发现,由于跨模式的注意,在潜在水平上存在着多模式不一致。基于这一发现,我们提出了一种基于分层跨模态门控(HCT-MG)的轻量级模型,该模型根据对目标任务的贡献确定主模态,然后分层地加入辅助模态,以减轻模态间不一致和减少信息冗余。在CMU-MOSI、CMU-MOSEI和IEMOCAP三个基准数据集上的实验评估验证了该方法的有效性,结果表明:1)该方法比以往的工作和人工选择主模态都取得了更好的性能;2)能够识别难以分辨情绪的硬样本;3)当情感倾向不匹配时,在潜在水平上减轻了模态间的不一致;4)将模型尺寸减小到小于1M个参数,同时优于现有类似尺寸的模型。

1. 介绍

2. 相关工作

随着交叉注意机制(Lu et al ., 2019)在自我注意中交换键值对的成功,使用交叉注意进行多模态融合的主要趋势已经出现,通常被称为交叉注意。Tsai等人(2019)提出了一种基于跨模态注意力的Transformer,通过直接关注其他模态中的特征来提供张量级跨模态自适应,融合多模态信息。Zadeh等人(2019)开发了一种基于自我注意和交叉注意的Transformer,分别提取模态内和模态间的情绪信息。Li等人(2022)使用分层结构的跨模态注意从不同的文本方面捕捉词汇特征,用于语音情感识别。

尽管取得了这些进展,但在多模态融合中仍存在一些问题。首先,不同的模态可能表现出不匹配的情感倾向,导致模态间不一致,这是MSEA任务的一个普遍问题。然而,该主题的大部分内容是基于模式之间的高层次比较分析,例如一个人在表达赞美的同时转动他/她的眼睛(Wu et al, 2021)。没有证据表明这种多式联运不协调可以在潜在的水平上通过跨模式的注意来解决。此外,为了提高MSEA任务的性能,通常会重复融合某些模式。这样的操作会给模型带来信息冗余,导致模型尺寸过大,阻碍了MSEA的实际应用。考虑到这些挑战,我们对跨模态注意力如何起作用或失败进行了新颖的分析,并在此基础上提出了一个轻量级但高效的模型。

3. 可行性分析

利用来自不同模态数据的模型通常优于单模态模型,因为聚合了更多的信息。先前的研究表明,使用多个模态学习优于使用模态子集,因为前者可以获得更好的潜在空间表示(Huang et al ., 2021)。但是,不能保证使用多模态数据总是比单模态数据好。

例如,Huang等人(2021)发现,当样本量相对较小时,组合多种模态(文本、音频和视频)的表现不如单模态。此外,Rajan et al(2022)比较了情绪识别的自我注意模型和交叉注意模型,两种模型的结果没有明显差异。

由于没有证据表明跨模态注意是否有效以及为什么有效,我们在潜在水平上进行了分析,以研究多模态信息如何相互作用以及多模态不一致如何发生。我们在CMU-MOSEI上进行了三个实验:
实验1:
研究源模态如何通过跨模态注意增强目标模态。
我们使用V→T(文本伴随着视觉)的例子。接下来,我们希望看到两种模式的结合如何共同影响第三种模式。

实验2:
研究目标模态的显著部分是如何通过有或没有源模态组合的自我注意来表现的。我们使用(A + V)→T(文本由交叉注意融合的视听参与)的例子。此外,我们想知道不同的源模式如何单独影响目标。

实验3。研究了当使用不同的源模态时,目标模态的显著部分是如何被跨模态注意所表示的。我们使用V→T(视觉参与的文本)和A→T(音频参与的文本)的例子。

实验表格:
在这里插入图片描述
在这里插入图片描述
图1显示了视频帧(x轴)和文本单词(y轴)。跨模式注意捕捉到的显著情感信息在红框中突出显示。可以注意到,高亮部分是由于视频中人物的面部或行为发生了明显的变化,如皱眉或摇头。跨模式注意成功地突出了与面部表情相关的有意义的单词(例如,“only”,“villain”)。

在图2中,可以注意到,当与源模态的组合融合时,文本更多地关注与情感信息相关的单词,而其他单词的噪声更少。例如,当涉及到跨模式注意力时,“悲伤”这个词在第一句话中是最突出的,但在自我注意力上却不那么突出。第二句中的“never”和第三句中的“love”和“melodramatic”也是如此。

在图3中,我们看到,当与不同的单个源模态融合时,目标模态(文本)可以通过不同的情感倾向得到增强。当使用vision作为源情态时,“love”和“talented”这两个词在第一句中最为突出,代表了一种积极的意义。然而,当使用音频时,“不”是最重要的,表现出否定是很重要的。同样,“but”在第二句中表示转折,它被视觉捕捉到,但被音频忽略,这两个词将注意力吸引到不同的部分。这些现象表明,不同的模式可能包含不匹配的情感倾向。高水平的多式联运比较(Desai et al, 2022)和情感分析(Li et al, 2019)发现了多式联运不协调的存在。我们的研究结果证明,由于交叉注意,这种不一致性在潜在水平上也存在,导致一种情态中的显着情感信息被另一种情态扭曲。

基于以上发现,我们可以发现,跨模态注意确实有助于多模态融合,通过将两种模态对齐,突出目标模态中的显著情感信息和源模态的互补信息。根据注意机制(V aswani et al, 2017),这个过程可以被描述为将Query(来自目标)映射到Key(来自源),并获得V值(来自源)的分数。

然而,如果模态有不匹配的情感倾向,这种过程可能会发生故障,这使得模态间的不一致难以在潜在水平上解决。

4. 提出的方法-HCT-MG

为了在解决上述问题的同时利用跨模态注意力的优势,作者提出了一种新的多模态融合方法:
分层跨模态变压器与模态门控(HCT-MG),该方法在两个方面优于现有方法:

1)一些先前的研究对所有模态进行平等处理,并在每个步骤中融合它们,从而在融合中存在不一致性(Tsai et al ., 2019;Sahay等人,2020),而我们的HCT-MG首先融合辅助模式,在最后一步留下主要模式进行融合。

2)一些先前的工作根据使用的模态层次确定了主要模态(Rahman等人,2020;Hazarika et al, 2020)。这种实践是经验的,由于固定的层次结构,即使其他模式可能占主导地位,加权模式(例如,T⊕W1A⊕W2V)也不能在模型训练期间改变。相比之下,HCT-MG在每个训练批中自动选择并动态改变主模态,并相应地构建层次结构,而不必担心使用哪些模态。因此,提出的方法可以消除不一致和减少冗余,同时允许模型是模态不可知论。

该体系结构如图4所示。HCT-MG基于文本(T)、音频(A)和视觉(V)三种模态构建,由四个部分组成:特征投影、模态门控、跨模态变压器和加权拼接。请注意,模态不限于T、A和V,因为模态门控可以为任何三个输入构建最佳层次结构。
在这里插入图片描述

特征提取

首先将输入特征输入到一维卷积(Conv1D)网络中,以整合局部上下文并将特征投影到相同的隐藏维度中。然后将特征传递给门控循环单元(GRU)网络,该网络通过循环更新全局上下文的隐藏状态来编码全局上下文,并对序列结构建模。我们使用两组输入特征:一组使用与Tsai等人(2018,2019)和Sahay等人相同的传统特征提取器(2020)进行公平比较,而另一个使用相同的大型预训练模型,BERT (Devlin等人,2018)和WavLM (Chen等人,2022),作为Ando等人(2023)的性能改进。

模态门控

Modality Gating在训练过程中根据每个模态的可训练权重来决定哪个模态应该是主要模态,而不是手工选择。具体来说,每个模态被分配一个可训练的权重,其值基于其对最终任务的贡献,即情感分类或情感识别。模态的贡献越大,其权重值也越大。所有可训练权值之和等于1,并且我们允许在每个训练批中更新权值,以确保模态门控可以很好地适应任何类型的输入模态。我们将在5.3.2节讨论模态门控是如何工作的。

跨模态Transformer。

作为自注意的一种变体,交叉注意力机制(Lu et al, 2019)将来自源模态的信号转换为一组不同的Key-V值对,以与目标模态交互。事实证明,这在各个领域都很有用(Zhang等人,2022;Rashed等人,2022)。这里使用的跨模态Transformer与MulT相同(Tsai et al ., 2019),它是几个跨模态注意块的深度堆叠,具有层归一化和位置嵌入。与MulT不同,MulT在同一步骤中有六个跨模态变压器,我们在第一步中使用两个来获得增强的辅助模态:
在这里插入图片描述
然后在第二步中,使用另外两个跨模态变压器来产生增强的主模态表示:
在这里插入图片描述

加权连接

在得到增强的主模态后,将他们拼接起来,并使用自注意找到其显著部分作为最终的初级表示:
在这里插入图片描述
最终将得到的每个模态的跨模态表示拼接起来:
在这里插入图片描述
其中W1和W2是权重矩阵,由模型自己学习来控制提取多少辅助信息。

5. 实验

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一颗2021

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值