1 Introduction
已有的多模态情感分析模型大多旨在设计一个更有效的融合方案或改进损失,而MSA模型中单模态网络的优化设计往往被忽视。然而,最优单峰网络的覆盖范围决定了整个MSA模型的下限,应该专门针对模型的更高性能进行解决。此外,每种模态的最优解也保证了即使没有任何模态,MSA模型的性能。如何获得最优单峰网络, 哪种模态是有信息量的,以及如何过滤掉有噪声的模态。
我们的直觉是,每种情态都带有特定于情态的信息,其重要性各不相同。此外,同一模态的作用也各不相同(在不同的话语中有用信息和嘈杂信息的数量各不相同)。为了解决这些问题,我们提出了一种新的用于多模态情感分析的调节模型M3SA来调节不同模态的训练。
其核心思想是,在训练阶段,调节函数根据所有模态的置信度来调制每个模态的损失贡献,使模型能够平衡多模态信息,并识别每个模态在每个话语中的重要性。这样,该模型可以动态调整不同模态的贡献,从而更好地利用隐藏在每个模态中的重要信息来更新单峰网络。
此外,为了获得正确的多模态嵌入,我们设计了模态滤波模块(MFM)来识别模态重要性并显式滤除噪声模态。我们提出了MFM滤波器的两种可能的候选滤波器,即硬滤波器和软滤波器,其中硬滤波器提供二进制选择{0;1}保留或滤除单个模态,而软滤波器输出一个介于[0,1]之间的数字,根据噪声电平滤除噪声信息。此外,与其直接去除有噪声的模态或标记,我们创新地为每个模态训练一个基线嵌入,并用它替换噪声嵌入,这样我们的方法就可以适用于任何融合机制,并补偿单峰信息的损失。
贡献如下:
• 提出了一个新的框架M3SA来调节MSA模型的训练,旨在探索单模态网络和多模态嵌入的最佳解决方案。
• 设计跨模态调制损失是为了在训练阶段根据单个模态的置信度调制每个模态的贡献,并且它可以减少来自噪声模态的干扰,以便单模态网络可以更好地优化,这在现有的工作中经常被忽视。
• 设计模态滤波模块(MFM),在提出软滤波、硬滤波和单模态嵌入基线的情况下,识别噪声模态并将其滤除,使噪声信息的负面影响最小化,获得正确的多模态嵌入。与基于注意的方法相比,MFM引入的参数更少,并且可以显式滤除噪声模态。
• 提出的方法与公共数据集上的几种模型进行了比较,达到了最先进的性能,证明了它的有效性和优越性。
2 Related work
3 Algorithm
3.1 Notations and Problem Formulation
声学、语言和视觉的序列表示为 ua ∈RTa×da、uv ∈RTv×dv、ul ∈RTl×dl。T是序列长度,d是特征维度。
3.2 Overall Algorithm
首先在形式上,作者把传统的多模态学习系统表述为:
x m = F m ( u m ; θ m ) , m ∈ l , a , v y M = F M ( x l , x a , x v ; θ M ) \left. \begin{array} { l } { x ^ { m } = F^ { m } ( u ^ { m } ; \theta _ { m } ) , m∈{l,a,v} } \\ { \quad y _ { M} = F ^ { M } ( x ^ { l } , x ^ { a } , x ^ { v } ; \theta _ { M } ) } \end{array} \right. xm=Fm(um;θm),m∈l,a,vyM=FM(x