EMNLP(2021) Which is Making the Contribution: Modulating Unimodal and Cross-modal Dynamics for MSA

M3SA是一个新提出的框架,旨在通过调节不同模态的训练来优化多模态情感分析。它设计了模态调制损失以根据单模态置信度调整每个模态的贡献,减少噪声模态的干扰,并通过模态滤波模块识别并过滤噪声模态,以提高模型性能。
摘要由CSDN通过智能技术生成

1 Introduction

已有的多模态情感分析模型大多旨在设计一个更有效的融合方案或改进损失,而MSA模型中单模态网络的优化设计往往被忽视。然而,最优单峰网络的覆盖范围决定了整个MSA模型的下限,应该专门针对模型的更高性能进行解决。此外,每种模态的最优解也保证了即使没有任何模态,MSA模型的性能。如何获得最优单峰网络, 哪种模态是有信息量的,以及如何过滤掉有噪声的模态。我们的直觉是,每种情态都带有特定于情态的信息,其重要性各不相同。此外,同一模态的作用也各不相同(在不同的话语中有用信息和嘈杂信息的数量各不相同)。为了解决这些问题,我们提出了一种新的用于多模态情感分析的调节模型M3SA来调节不同模态的训练。

其核心思想是,在训练阶段,调节函数根据所有模态的置信度来调制每个模态的损失贡献,使模型能够平衡多模态信息,并识别每个模态在每个话语中的重要性。这样,该模型可以动态调整不同模态的贡献,从而更好地利用隐藏在每个模态中的重要信息来更新单峰网络。

此外,为了获得正确的多模态嵌入,我们设计了模态滤波模块(MFM)来识别模态重要性并显式滤除噪声模态。我们提出了MFM滤波器的两种可能的候选滤波器,即硬滤波器和软滤波器,其中硬滤波器提供二进制选择{0;1}保留或滤除单个模态,而软滤波器输出一个介于[0,1]之间的数字,根据噪声电平滤除噪声信息。此外,与其直接去除有噪声的模态或标记,我们创新地为每个模态训练一个基线嵌入,并用它替换噪声嵌入,这样我们的方法就可以适用于任何融合机制,并补偿单峰信息的损失。

贡献如下:
• 提出了一个新的框架M3SA来调节MSA模型的训练,旨在探索单模态网络和多模态嵌入的最佳解决方案。

• 设计跨模态调制损失是为了在训练阶段根据单个模态的置信度调制每个模态的贡献,并且它可以减少来自噪声模态的干扰,以便单模态网络可以更好地优化,这在现有的工作中经常被忽视。

• 设计模态滤波模块(MFM),在提出软滤波、硬滤波和单模态嵌入基线的情况下,识别噪声模态并将其滤除,使噪声信息的负面影响最小化,获得正确的多模态嵌入。与基于注意的方法相比,MFM引入的参数更少,并且可以显式滤除噪声模态。

• 提出的方法与公共数据集上的几种模型进行了比较,达到了最先进的性能,证明了它的有效性和优越性。

2 Related work

3 Algorithm

3.1 Notations and Problem Formulation

声学、语言和视觉的序列表示为 ua ∈RTa×dauv ∈RTv×dvul ∈RTl×dl。T是序列长度,d是特征维度。

3.2 Overall Algorithm

在这里插入图片描述
首先在形式上,作者把传统的多模态学习系统表述为:
x m = F m ( u m ; θ m ) , m ∈ l , a , v y M = F M ( x l , x a , x v ; θ M ) \left. \begin{array} { l } { x ^ { m } = F^ { m } ( u ^ { m } ; \theta _ { m } ) , m∈{l,a,v} } \\ { \quad y _ { M} = F ^ { M } ( x ^ { l } , x ^ { a } , x ^ { v } ; \theta _ { M } ) } \end{array} \right. xm=Fm(um;θm),ml,a,vyM=FM(x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一颗2021

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值