MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis
简介
解决多模态情感分析任务的一个主要方法是开发一个复杂的融合技术,在多模态情感分析任务中,尽管基于注意力的模型和基于张量融合等方法都取得了一些进展,但是这些融合技术会受到不同模态存在模态鸿沟的挑战。
为了能够学习互补的信息以尽量减少冗余(引入了模态不变空间)并纳入多样化的信息集(引入了模态特定的空间),并学习捕获这些理想特性的潜在模态表征以帮助多模态的融合,本文提出了MISA模型,它能够通过学习有效地模态表征来辅助特征融合过程。该模型学习每个模态的分解子空间,以获得更好的模态表征用于融合的输入。MISA为每种模态学习了两种不同的表示空间:
- 第一个表示空间是模态不变的(Modality-Invariant),学习不同模态表征之间的共性并减少模态差距。虽然多模态信号来自不同的模态,但是这些不同的模态有着共同的动机和说话者的目标。不变映射有助于捕获做这些潜在地共性和相关的特征,作为共享子空间上的对齐投影。
- 第二个表示空间是模态特定的(Modality-Specific),该空间是每一种模态所特有的,并学习模态特有的特征。对于任何信息,每种模态都有自己独特的特征,包括说话者的表达风格信息,这种特异性的细节往往与其他模态不相关,被称为噪音。但是这种噪音在预测情感状态是非常有用的,例如说话者倾向于讽刺的表达方式,就偏重于极端情感的表达。
学习模态特定的特征和不变空间中捕获的共同潜在特征,可以提供一个全面的多模态语料表征,并使用这个完整的表征进行融合,然后用于分类任务。

为了学习模态不变和模态特定的两个子空间,需要结合各种损失:
- 分布相似性损失(distributional similarity loss):用于不变特征。
- 正交损失(orthogonal loss):针对特定特征。
- 重建损失(reconstruction loss):针对具有代表性的模态特征。
- 任务预测损失(task prediction):用于最终的分类预测任务。
MISA
MISA框架的整体结构主要包括两个阶段:模态表征学习和模态融合。
下图为MISA框架的完整结构,首先对文本、视频、音频三种信息进行特征提取,然后学习不同模态不同子空间下的模态表征,最后对这些模态表征进行融合并使用transformer对融合的信息进行处理,以用于最终的分类任务。

数据中的每个视频被分割成一个个小视频(语料)作为模型的输入。对于一个语句(可以理解为一段视频的长度,它包含文本,音频,视频信息) U U U,输入包括语言 ( l ) (l) (l)、视觉 ( v ) (v) (v)、音频 ( a ) (a) (a)三个低层次的特征序列。三个序列分别表示为 U l ∈ R T l × d l , U v ∈ R T v × d v U_l \in R^{T_l\times d_l},U_v \in R^{T_v\times d_v} Ul∈RTl×dl,Uv∈RTv×dv和 U a ∈ R T a × d a U_a \in R^{T_a\times d_a} Ua∈RTa×da,这里 T m T_m Tm表示话语的长度(由多少个语料组成), d m d_m dm表示每个模态各自的特征维度。
我们的任务是利用这些序列 U m ∈ { l , v , a } U_m\in \{l,v,a\} Um∈{ l,v,a}来预测该语句 U U U所表达的情感取向。
1、特征提取
对于每个模态 m ∈ l , v , a m\in {l,v,a} m∈l,v,a,首先将使用堆叠的双向长短时记忆(LSTM)提取语料序列 U m ∈ R T m × d m U_m \in R^{T_m\times d_m} Um∈RTm×dm的特征,然后后面在加上全连接的密集层,将其映射到固定大小的向量
u m ∈ R d h u_m \in R^{d_h} um∈Rdh,其计算公式为:
u m = s L S T M ( U m ; θ m l s t m ) (1) u_m=sLSTM(U_m;\theta^{lstm}_m)\tag{1} um=sLSTM(Um;θmlstm)(1)
公式中只体现了堆叠的双向长短时记忆,其后面应该有线性层才能得到最终的固定大小的特征向量 u m u_m um(对于每个模态,特征向量的长度是相同的)。
其中对于音频和视频模态只是用sLSTM进行特征提取;而对于文本模态,可以使用sLSTM也可以使用BERT,由上图可知是使用的BERT(虽然公式中把文本写成与视频和音频使用的是一样的了)。在代码中也是可以选择的,当然使用BERT的效果肯定要好了哇。
下图为所使用的BERT和sLSTM的结构,并在后面添加了线性层使得每个模态的特征向量是一样大小的。对于不同数据集其模型中参数大小是不同的,但是结构是一样的,在此以MOSI数据集为例(后面所用到的的结构也以MOSI为例)。

2、模态表征-模态不变和模态特定表征(Modality-Invariant and -Specific Representations)
将每个模态的特征向量(这里应该是一句完整各模态的特征向量)投影到两个不同的表示空间中。
第一个是模态不变组件(空间),它在具有相似性约束的公共子空间中学习共享表示。这种约束有助于最小化不同模态之间的异质性,有助于多模态融合。实际的操作就是就是使用具有相同权重的线性网络去处理不同的模态。
第二个是针对模态特定的部分,捕获每一个模态的独特特征。
在本文中,模态不变和模态特定的表征为有效的特征融合提供了完整的多模态表征。学习这些表征是本文的首要目标。
对于模态m的特征向量 u m u_m um,使用编码函数学习隐藏的模态不变( h m c ∈ R d h h_m^c \in R^{d_h} hmc∈Rdh)和模态特定( h m p ∈ R d h h_m^p \in R^{d_h} hmp∈Rdh)表征:
h m c = E c ( u m ; θ c ) , h m p = E p ( u m ; θ m p ) (2) h_m^c=E_c(u_m;\theta^c),\;h_m^p=E_p(u_m;\theta^p_m) \tag{2} hmc=Ec(um;θc),hmp=Ep(um;θmp)

MISA模型旨在解决多模态情感分析中的模态融合问题,通过学习模态不变和模态特定的表示空间。模态不变空间捕捉不同模态间的共享特征,减少模态差异,而模态特定空间则保留每种模态的独特信息。模型采用分布相似性损失、正交损失和重构损失来学习这些表示,并通过Transformer进行特征融合。实验结果表明,MISA在多个数据集上表现出色,提高了情感预测的准确性。
最低0.47元/天 解锁文章
1127

被折叠的 条评论
为什么被折叠?



