Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis
文献信息:
标题:用自我监督的多任务学习学习特定模式的表征,用于多模态情感分析
作者:Wenmeng Yu, Hua Xu, Ziqi Yuan, Jiele Wu
地址:清华大学计算机科学与技术系智能技术与系统国家重点实验室,北京
时间:Tue, 9 Feb 2021 14:05:02
会议:AAAI2021
主题:Computation and Language
摘要
表征学习是多模态学习中一项重要而富有挑战性的任务。有效的模态表示应该包含两部分特征:一致性和差异性。由于多模态标注的统一性,现有的方法在捕捉差异性信息方面受到限制。然而,额外的单模态标注耗费的时间和人力成本较高。本文设计了基于自监督学习策略的标签生成模块,获取独立的单模态监督。然后,联合训练多模态和单模态任务,分别学习一致性和差异性。此外,在训练阶段,我们设计了一种权重调整策略来平衡不同子任务之间的学习进度。即引导各子任务关注模态监督之间差异较大的样本。最后,我们在三个公共多模态基线数据集上进行了大量实验。实验结果验证了自动生成的单模态监督的可靠性和稳定性。在MOSI和MOSEI数据集上,我们的方法超越了目前最先进的方法。在SIMS数据集上,我们的方法实现了比人工标注的单模态标签相当的性能。完整的代码可在https://github.com/thuiar/Self-MM。
1. 介绍
近年来,多模态情感分析(Multimodal Sentiment Analysis,MSA)吸引了越来越多的关注(Zadeh et al.2017;Tsai et al.2019;Poria et al.2020)。与单模态情感分析相比,多模态模型在处理社交媒体数据时更加稳健,并实现了突出的改进。随着用户生成的在线内容的蓬勃发展,MSA已经被引入到风险管理、视频理解、视频转录等诸多应用中。
虽然之前的工作在基准数据集上取得了令人印象深刻的改进,但MSA仍然充满了挑战。Baltrusaitis、Ahuja和Morency(2019)指出了多模态学习的五个核心挑战:对齐、翻译、表示、融合和共同学习。
其中,表征学习处于基础地位。在最近的工作中,Hazarika、Zimmermann和Poria(2020)指出,单模态表征应该包含一致和互补的信息。根据表征学习中引导的不同,我们将现有的方法分为前向引导和后向引导两类。在前向引导方法中,研究者致力于设计交互式模块来捕捉跨模态信息(Zadeh等2018a;Sun等2020;Tsai等2019;Rahman等2020)。然而,由于统一的多模态标注,它们很难捕获模态特定信息。在后向引导方法中,研究者提出了额外的损失函数作为先验约束,这使得模态表示既包含一致的信息,又包含互补的信息(Yu et al. 2020a; Hazarika, Zimmermann, and Poria 2020)。
Yu等人(2020a)引入了独立的单模态人类注释。通过联合学习单模态和多模态任务,所提出的多任务多模态框架同时学习了特定模态和模态不变的表征。Hazarika、Zimmermann和Poria(2020)设计了两个不同的编码器,将每个模态投射到模态不变量和模态特定空间。据称,两个正则化组件可以帮助模态不变和模态特定的表征学习。然而,在前者中,单模态标注需要额外的人力成本,而在后者中,空间差异难以表示模态特定的差异。此外,它们需要手动平衡全局损失函数中约束成分之间的权重,这高度依赖于人类的经验。
在本文中,我们专注于后向引导方法。在独立的单模态标注和先进的特定模态表示学习的激励下,我们提出了一种新型的自我监督多任务学习策略。与Yu等人(2020a)不同,我们的方法不需要人类注释的单模态标签,而是使用自动生成的单模态标签。它基于两个直觉。首先,标签差异与模态表示和类中心之间的距离差异正相关。第二,单模态标签与多模态标签高度相关。因此,我们设计了基于多模态标签和模态表示的单模态标签生成模块。具体内容见3.3节。
考虑到自动生成的单模标签在开始的时代不够稳定,我们设计了一种基于动量的更新方法,对后面生成的单模标签应用较大的权重。此外,我们引入了一种自调整策略,在整合最终的多任务损失函数时,调整每个子任务的权重。我们认为,对于标签差异较小的子任务,在自动生成的单模态标签和人工标注的多模态标签之间,很难学习到模态特异的表示。因此,子任务的权重与标签差异呈正相关。
我们工作的新颖贡献可以总结如下:
- 我们根据模态表征和类中心之间的距离提出相对距离值,与模型输出正相关。
- 我们设计了基于自监督策略的单模态标签生成模块。此外,我们还引入了一种新颖的权重自调整策略,以平衡不同的任务损失约束。
- 在三个基准数据集上的广泛实验验证了自动生成的单模态标签的稳定性和可靠性。此外,我们的方法优于当前最先进的结果。
2. 相关工作
在本节中,我们主要讨论多模态情感分析和多任务学习领域的相关工作。我们也强调了我们工作的创新之处。
2.1 多模态情感分析
多模态情感分析已经成为一个重要的研究课题,它整合了视觉、听觉等语言和非语言信息。以往的研究者主要集中在表征学习和多模态融合方面。对于表征学习方法,Wang等(2019)构建了一个recurrent attended variation embedding network来生成多模态shifting。Hazarika、Zimmermann和Poria(2020)提出了多模态学习中的模态不变和模态特定的表示方法。对于多模态融合,根据融合阶段,以往的工作可以分为两类:早期融合和后期融合。早期融合方法通常采用精细的注意机制进行跨模态融合。Zadeh et al. (2018a)设计了一个跨视角交互的记忆融合网络。Tsai等(2019)提出了跨模态变换器,学习跨模态的注意力来强化目标模态。晚期融合方法先学习模态内表示,最后进行模态间融合。Zadeh等(2017)使用了张量融合网络,通过计算单模态表征之间的外积获得张量表征。Liu等(2018)提出了一种低阶多模态融合方法,以降低基于张量方法的计算复杂度。
我们的工作目标是基于后期融合结构的表征学习。与以往的研究不同,我们采用自我监督策略联合学习单模态和多模态任务。我们的方法从多模态任务中学习相似性信息,从单模态任务中学习差异性信息。
2.2 Transformer and BERT
Transformer是一个序列到序列的架构,没有递归结构(Vaswani等,2017)。它用于对顺序数据进行建模,在结果、速度和深度上都比循环结构有优越的表现。BERT(Bidirectional Encoder Representations from Transformers)(Devlin等,2018)是在Transformer上的成功应用。预训练的BERT模型在多个NLP任务中取得了显著的改进。在多模态学习中,预训练的BERT也取得了显著的效果。目前,使用预训练BERT有两种方法。第一种是将预训练的BERT作为语言特征提取模块(Hazarika,Zimmermann和Poria,2020)。第二种是在中间层整合声学和视觉信息(Tsai et al. 2019;Rahman et al. 2020). 在本文中,我们采用第一种方式,并针对我们的任务对预训练的BERT进行微调。
2.3 多任务学习
多任务学习旨在通过利用不同任务中包含的知识来提高多个相关任务的泛化性能(Zhang和Yang,2017)。与单任务学习相比,多任务学习在训练阶段主要有两个挑战。第一是如何共享网络参数,包括硬共享和软共享方法。第二是如何平衡不同任务的学习过程。最近,多任务学习在MSA中得到了广泛的应用(Liu等,2015;Zhang等,2016;Akhtar等,2019;Yu等,2020b)。
在这项工作中,我们引入了非模态子任务来帮助特定模态的表示学习。我们采用了硬分担策略,并设计了一种权重调整方法来解决如何平衡的问题。
3. 方法论
在本节中,我们将详细解释自监督多任务多模态情感分析网络(Self-MM)。Self-MM的目标是通过联合学习一个多模态任务和三个单模态子任务来获取信息丰富的单模态表征。与多模态任务不同,在自监督方法中,单模态子任务的标签是自动生成的。为方便起见,我们将人工标注的多模态标签称为m-标签,将自动生成的单模态标签称为u-标签。
3.1 任务设定
多模态情感分析(Multimodal Sentiment Analysis,MSA)是利用多模态信号来判断情感,包括文本( I t I_t It),语音( I a I_a Ia),视频( I v I_v Iv)。一般来说,MSA可以被视为回归任务或分类任务。在本工作中,我们将其视为回归任务。因此,Self-MM将 I t I_t It、 I a I_a Ia、 I v I_v Iv作为输入,输出一个情感强度结果 y ^ m ∈ R \hat{y}_m\in{R} y^m∈R。在训练阶段,为了帮助学习表征,Self-MM具有额外的三个单模态输出 y ^ s ∈ R \hat{y}_s\in{R} y^s∈R,其中 s ∈ t , a , v s\in{t,a,v} s∈t,a,v,尽管输出不止一个,但我们仅使用 y ^ m \hat{y}_m y^m作为最终的预测结果。
3.2 总体架构
如图1所示,Self-MM由一个多模态任务和三个独立的单模态子任务组成。在多模态任务和不同的单模态任务之间,我们采用硬共享策略,共享底层表征学习网络。
- 多模态任务:对于多模态任务,我们采用经典的多模态情感分析架构。它主要包含三个部分:特征表示模块、特征融合模块和输出模块。在文本模态中,由于预训练的语言模型取得了巨大的成功,我们采用预训练的12层BERT来提取句子表征。根据经验,选取最后一层中的第一个词向量作为整句表示Ft。
F t = B E R T ( I t ; θ t b e r t ) ∈ R d t F_{t}=B E R T\left(I_{t} ; \theta_{t}^{b e r t}\right) \in R^{d_{t}} Ft=BERT(It;θtbert)∈Rdt
在音频和视觉模式中,继Zadeh等人(2017);Yu等人(2020b)之后,我们使用预先训练的ToolKits来提取初始向量特征。从原始数据得到 I a ∈ R l a × d a I_{a} \in R^{l_{a} \times d_{a}} Ia∈Rla×da以及 I v ∈ R l v × d v I_{v} \in R^{l_{v} \times d_{v}} Iv∈Rlv×dv。这里 l a l_{a} la和 l v l_{v} lv分别为音频和视觉的序列长度。 然后,我们使用单方向长短期记忆(sLSTM)(Hochreiter和Schmidhuber 1997)来捕捉时序特征。最后,采用末态隐藏向量作为整个序列的表示方法。
F a = s L S T M ( I a ; θ a l s t m ) ∈ R d a F v = s L S T M ( I v ; θ v l s t m ) ∈ R d v \begin{array}{l} F_{a}=s L S T M\left(I_{a} ; \theta_{a}^{l s t m}\right) \in R^{d_{a}} \\ F_{v}=s L S T M\left(I_{v} ; \theta_{v}^{l s t m}\right) \in R^{d_{v}} \end{array} Fa=sLSTM(Ia;θalstm)∈RdaFv=sLSTM(Iv;θvlstm)∈Rdv
然后,我们将所有的单模态表征连接起来,并将它们投射到一个低维空间Rdm中。
F m ∗ = ReLU ( W l 1 m T [ F t ; F a ; F v ] + b l 1 m ) F_{m}^{*}=\operatorname{ReLU}\left(W_{l 1}^{m T}\left[F_{t} ; F_{a} ; F_{v}\right]+b_{l 1}^{m}\right) Fm∗=ReLU(Wl1mT[Ft;Fa;Fv]+bl1m)
其中 W l 1 m ∈ R ( d t + d a + d v ) × d m W_{l 1}^{m} \in R^{\left(d_{t}+d_{a}+d_{v}\right) \times d_{m}} Wl1m∈R(dt+da+dv)×dm,ReLU是relu激活函数
最后,利用融合表示 F m ∗ F_m^* Fm∗来预测多模态情感。
y ^ m = W l 2 m T F m ∗ + b l 2 m \hat{y}_{m}=W_{l 2}^{m T} F_{m}^{*}+b_{l 2}^{m} y^m=Wl2mTFm∗+bl2m
其中 W l 2 m ∈ R d m × 1 W_{l 2}^{m} \in R^{d_{m} \times 1} Wl2m∈Rdm×1 - 单模态任务:对于三个单模态任务,它们与多模态任务共享模态表示。为了减少不同模态之间的维度差异,我们将它们投射到一个新的特征空间中。然后,用线性回归得到单模态结果。
F s ∗ = Re L U ( W l 1 s T F s + b l 1 s ) y ^ s = W l 2 s F s ∗ + b l 2 s \begin{array}{c} F_{s}^{*}=\operatorname{Re} L U\left(W_{l 1}^{s T} F_{s}+b_{l 1}^{s}\right) \\ \hat{y}_{s}=W_{l 2}^{s} F_{s}^{*}+b_{l 2}^{s} \end{array} Fs∗=ReLU(Wl1sTFs+bl1s)y^s=Wl2sFs∗+bl2s
其中 s ∈ { t , a , v } s\in\{t,a,v\} s∈{t,a,v}
为了指导单模态任务的训练过程,我们设计了一个单模态标签生成模块(ULGM)来获取ulabels。ULGM的细节将在3.3节讨论。
y s = U L G M ( y m , F m ∗ , F s ∗ ) y_{s}=U L G M\left(y_{m}, F_{m}^{*}, F_{s}^{*}\right) ys=ULGM(ym,Fm∗,Fs∗)
其中 s ∈ { t , a , v } s\in\{t,a,v\} s∈{t,a,v}
最后,我们在m-labels和u-labels监督下联合学习多模态任务和三个单模态任务。值得注意的是,这些单模态任务只存在于训练阶段,因此,我们将 y ^ m \hat{y}_m y^m作为最终输出。
3.3 ULGM
ULGM的目的是基于多模态注释和模态表示来生成单模态监督值。为了避免对网络参数的更新产生不必要的干扰,ULGM被设计成一个非参数模块。一般情况下,单模态监督值与多模态标签高度相关。因此,ULGM根据模态表示到类中心的相对距离计算偏移量,如图2所示。
- 相对距离值:由于不同的模态表示存在于不同的特征空间中,使用绝对距离值不够准确。因此,我们提出了相对距离值,它与空间差异无关。首先,在训练过程中,我们主要训练不同模态表示的积极中心(
C
i
p
C_i^p
Cip)和消极中心(
C
i
n
C_i^n
Cin):
C i p = ∑ j = 1 N I ( y i ( j ) > 0 ) ⋅ F i j g ∑ j = 1 N I ( y i ( j ) > 0 ) C i n = ∑ j = 1 N I ( y i ( j ) < 0 ) ⋅ F i j g ∑ j = 1 N I ( y i ( j ) < 0 ) \begin{aligned} C_{i}^{p} &=\frac{\sum_{j=1}^{N} I\left(y_{i}(j)>0\right) \cdot F_{i j}^{g}}{\sum_{j=1}^{N} I\left(y_{i}(j)>0\right)} \\ C_{i}^{n} &=\frac{\sum_{j=1}^{N} I\left(y_{i}(j)<0\right) \cdot F_{i j}^{g}}{\sum_{j=1}^{N} I\left(y_{i}(j)<0\right)} \end{aligned} CipCin=∑j=1NI(yi(j)>0)∑j=1NI(yi(j)>0)⋅Fijg=∑j=1NI(yi(j)<0)∑j=1NI(yi(j)<0)⋅Fijg
其中 i ∈ { m , t , a , v } i\in\{m,t,a,v\} i∈{m,t,a,v},N是训练的采样点, I ( ⋅ ) I(·) I(⋅)是一个指标函数, F i j g F_{ij}^g Fijg是第j个样本在模式i中的全局表示。
对于模态表示,我们使用L2归一化作为 F i ∗ F_i^{*} Fi∗和类中心之间的距离。
D i p = ∥ F i ∗ − C i p ∥ 2 2 d i D i n = ∥ F i ∗ − C i n ∥ 2 2 d i \begin{array}{l} D_{i}^{p}=\frac{\left\|F_{i}^{*}-C_{i}^{p}\right\|_{2}^{2}}{\sqrt{d_{i}}} \\ D_{i}^{n}=\frac{\left\|F_{i}^{*}-C_{i}^{n}\right\|_{2}^{2}}{\sqrt{d_{i}}} \end{array} Dip=di∥Fi∗−Cip∥22Din=di∥Fi∗−Cin∥22
其中 i ∈ { m , t , a , v } i\in\{m,t,a,v\} i∈{m,t,a,v}, d i d_i di是表示维度,是一个尺度因子
然后,我们定义相对距离值,该值评价模态表示到正中心和负中心的相对距离。
α i = D i n − D i p D i p + ε (5) \alpha_{i}=\frac{D_{i}^{n}-D_{i}^{p}}{D_{i}^{p}+\varepsilon}\tag{5} αi=Dip+εDin−Dip(5)
其中 i ∈ { m , t , a , v } i\in\{m,t,a,v\} i∈{m,t,a,v}, ε \varepsilon ε是一个小数,在零例外的情况下。 - 转移价值:直观地看,
α
i
\alpha_i
αi与最终结果是正相关的。为了得到监督和预测值之间的联系,我们考虑以下两种关系。
y s y m ∝ y ^ s y ^ m ∝ α s α m ⇒ y s = α s ∗ y m α m y s − y m ∝ y ^ s − y ^ m ∝ α s − α m ⇒ y s = y m + α s − α m (6、7) \begin{array}{c} \frac{y_{s}}{y_{m}} \propto \frac{\hat{y}_{s}}{\hat{y}_{m}} \propto \frac{\alpha_{s}}{\alpha_{m}} \Rightarrow y_{s}=\frac{\alpha_{s} * y_{m}}{\alpha_{m}} \\ y_{s}-y_{m} \propto \hat{y}_{s}-\hat{y}_{m} \propto \alpha_{s}-\alpha_{m} \Rightarrow y_{s}=y_{m}+\alpha_{s}-\alpha_{m}\tag{6、7} \end{array} ymys∝y^my^s∝αmαs⇒ys=αmαs∗ymys−ym∝y^s−y^m∝αs−αm⇒ys=ym+αs−αm(6、7)
其中 s ∈ { t , a , v } s\in \{t,a,v\} s∈{t,a,v}
具体来说,引入方程7是为了避免 “零值问题”。在公式6中,当 y m y_m ym等于零时,生成的单模监督值ys总是零。然后,联合考虑上述关系,我们可以通过等权求和得到单模监督值。
y s = y m ∗ α s 2 α m + y m + α s − α m 2 = y m + α s − α m 2 ∗ y m + α m α m = y m + δ s m (8) \begin{aligned} y_{s} &=\frac{y_{m} * \alpha_{s}}{2 \alpha_{m}}+\frac{y_{m}+\alpha_{s}-\alpha_{m}}{2} \\ &=y_{m}+\frac{\alpha_{s}-\alpha_{m}}{2} * \frac{y_{m}+\alpha_{m}}{\alpha_{m}} \\ &=y_{m}+\delta_{s m} \end{aligned}\tag{8} ys=2αmym∗αs+2ym+αs−αm=ym+2αs−αm∗αmym+αm=ym+δsm(8)
其中 s ∈ { t , a , v } s\in \{t,a,v\} s∈{t,a,v}, δ s m = α s − α m 2 ∗ y m + α m α m \delta_{s m}=\frac{\alpha_{s}-\alpha_{m}}{2} * \frac{y_{m}+\alpha_{m}}{\alpha_{m}} δsm=2αs−αm∗αmym+αm表示单模态监督对多模态注释的偏移值。 - 基于动量的更新策略:由于模态表示的动态变化,由公式(8)计算出的生成的u-labels不够稳定,为了减轻不利影响,我们设计了基于动量的更新策略,将新生成的值与历史值相结合。
其中 s ∈ { t , a , v } s\in\{t,a,v\} s∈{t,a,v}, y s i y_s^i ysi是在第i个纪元产生的新的u-标签。 y s ( i ) y_s^{(i)} ys(i)是第i个纪元后的最后的u-标签。
形式上,假设总的纪元为n,我们可以得到, y s i y_s^i ysi的权重为 2 i ( n ) ( n + 1 ) \frac{2 i}{(n)(n+1)} (n)(n+1)2i,意思是说后来产生的u-标签的权重比前一个大。这与我们的经验是一致的。因为生成的单模态标签是之前所有纪元的累积和,所以在足够的迭代之后(在我们的实验中大约有20次),它们会趋于稳定。那么,单模态任务的训练过程将逐渐变得稳定。单模态标签更新策略如算法1所示。
3.4 优化目标
最后,我们以L1Loss作为基本优化目标。对于单模态任务,我们使用u-labels和m-labels之间的差异作为损失函数的权重。它表明网络应该更多关注差异较大的样本。
L
=
1
N
∑
i
N
(
∣
y
^
m
i
−
y
m
i
∣
+
∑
s
{
t
,
a
,
v
}
W
s
i
∗
∣
y
^
s
i
−
y
s
(
i
)
∣
)
(10)
L=\frac{1}{N} \sum_{i}^{N}\left(\left|\hat{y}_{m}^{i}-y_{m}^{i}\right|+\sum_{s}^{\{t, a, v\}} W_{s}^{i} *\left|\hat{y}_{s}^{i}-y_{s}^{(i)}\right|\right)\tag{10}
L=N1i∑N⎝⎛∣∣y^mi−ymi∣∣+s∑{t,a,v}Wsi∗∣∣∣y^si−ys(i)∣∣∣⎠⎞(10)
其中N是训练的采样点数量,
W
s
i
=
tanh
(
∣
y
s
(
i
)
−
y
m
∣
)
W_s^i=\tanh \left(\left|y_{s}^{(i)}-y_{m}\right|\right)
Wsi=tanh(∣∣∣ys(i)−ym∣∣∣)是第i个样本对辅助任务s的权重。
4. 实验环境
在本部分中,我们将介绍实验设置,包括实验数据集,基准和评估
4.1 数据集
在这项工作中,我们使用了三个公共多模态情感分析数据集,MOSI(Zadeh等人,2016)、MOSEI(Zadeh等人,2018b)和SIMS(Yu等人,2020a)。基本统计数据如表2所示。在此,我们对上述数据集进行简单介绍。
- MOSI:CMU-MOSI数据集(Zadeh等人,2016)是MSA最流行的基准数据集之一。它包括2199个短的独白视频片段,取自93个Youtube电影评论视频。人类注释者给每个样本贴上从-3(强烈负面)到3(强烈正面)的情感分数标签。
- MOSEI:CMU-MOSEI数据集(Zadeh等人,2018b)比CMU-MOSI扩展了其数据,拥有更多的语句、更多的样本、发言者和主题的多样性。该数据集包含23,453个注释视频片段(语句),来自5,000个视频,1,000个不同的扬声器和250个不同的主题。
- SIMS:SIMS数据集(Yu et al. 2020a)是中国特有的MSA基准,具有细粒度的模式注释。该数据集由2,281个从不同电影、电视连续剧和综艺节目中收集的精细视频片段组成,这些片段具有自发的表情、不同的头部姿势、遮挡和照明。人类注释者为每个样本标注了从-1(强烈负面)到1(强烈正面)的情感分数。
4.2 基准
为了充分验证Self-MM的性能,我们与以下多模态情感分析的基线和最先进的模型进行了公平的比较。
- TFN:张量融合网络(TFN)(Zadeh et al.2017)计算一个多维张量(基于外积)来捕捉单模、双模和三模的相互作用。
- LMF:低阶多模态融合(LMF)(Liu等,2018)是对TFN的改进,低阶多模态时序融合技术是为了提高效率。
- MFN:记忆融合网络(Memory Fusion Network,MFN)(Zadeh等人,2018a)占连续建模特定视图和跨视图的相互作用,并通过多视图门控记忆进行总结。
- MFM:多模态因子化模型(Multimodal Factorization Model,MFM)(Tsai等,2018)学习生成性表征,学习特定模态的生成性特征,同时学习用于分类的判别性表征。
- RAVEN:Recurrent Attended Variation Embedding Network(Wang等人,2019)利用基于注意力的模型,根据辅助的非语言信号重新调整词嵌入。
- MulT:多模态转化器(MulT)(Tsai et al. 2019)扩展了多模态变换器架构,采用定向对交注意,它利用定向对交注意将一种模态转化为另一种模态。
- MAG-BERT:Bert的多模态适应门(MAG-BERT)(Rahman等人,2020)是对RAVEN在对齐数据上的改进,在BERT主干的不同层应用多模态适应门。
- MISA:Modality-Invariant and -Specific Representations(MISA)(Hazarika, Zimmermann, and Poria 2020)结合了包括分布相似性、正交损失、重构损失和任务预测损失在内的损失,来学习模态不变和模态特定的表示。
4.3 基本设置
- 实验的细节:我们使用Adam作为优化器,并对Bert使用5e - 5的初始学习率,对其他参数使用1e - 3。为了公平的比较,在我们的模型(Self-MM)和两个最先进的方法(MISA和MAGBERT)中,我们运行五次并报告平均性能。
- 评价指标:按照之前的工作(Hazarika,Zimmermann和Poria 2020;Rahman等人2020),我们以两种形式报告我们的实验结果:分类和回归。对于分类,我们报告了加权F1得分(F1-Score)和二元分类精度(Acc2)。具体来说,对于MOSI和MOSEI数据集,我们以两种方式计算Acc-2和F1-Score:负/非负(非排除零)(Zadeh等人,2017)和负/正(排除零)(Tsai等人,2019)。对于回归,我们报告了平均绝对误差(MAE)和皮尔逊相关性(Corr)。除了MAE,数值越高表示所有指标的性能越好。
5. 结果分析
在本节中,我们对我们的实验结果做了详细的分析和讨论。
5.1 定量结果
表1是MOSI和MOSEI数据集的比较结果。为了公平的比较,根据 "数据设置 "的不同,我们将模型分为两类。Unaligned和Aligned两类。一般来说,使用对齐语料的模型可以得到更好的结果(Tsai et al. 2019)。在我们的实验中,首先,与未对齐模型(TFN和LMF)相比,我们在所有评价指标上都实现了显著的改善。即使与对齐模型进行比较,我们的方法也得到了具有竞争力的结果。此外,我们在相同条件下重现了两个最好的基线 "MISA "和 “MAG-BERT”。我们发现,我们的模型在大多数评价上都超过了它们。
由于 SIMS 数据集只包含未对齐的数据,我们将 Self-MM 与 TFN 和 LMF 进行比较。此外,我们使用人类注释的单模态标签来替代自动生成的u-labels,称为Human-MM。实验结果如表3所示。我们可以发现,Self-MM比TFN和LMF得到了更好的结果,并实现了与Human-MM相当的性能。以上结果表明,我们的模型可以应用于不同的数据场景,并取得显著的改进。
5.2 消融研究
为了进一步探索Self-MM的贡献,我们比较了不同单模态任务的组合效果。结果如表4所示。总体而言,与单任务模型相比,引入单模态子任务可以显著提高模型性能。从结果可以看出,"M,T,V "和 "M,T,A "取得的效果与 "M,T,A,V "相当,甚至更好。而且,我们可以发现,子任务 "T "和 "A "比子任务 "V "的帮助更大。
5.3 案例分析
为了验证自动生成的u-labels的可靠性和合理性,我们分析了u-labels的更新过程,如图3所示。我们可以看到,随着迭代次数的增加,u-labels的分布趋于稳定。这与我们的预期一致。与MOSI和SIMS数据集相比,MOSEI上的更新过程具有更快的收敛性。这说明较大的数据集有更稳定的类中心,更适合自监督方法。
为了进一步显示u-labels的合理性,我们从MOSI数据集中选取了三个多模态的例子,如图4所示。在第一种和第三种情况下,人类注释的m-labels为0.80和1.40。然而,对于单一模态,它们倾向于负面情绪。与预期一致,u-labels在m-labels上得到负偏移。在第二种情况下,则实现了正的偏移效果。因此,自动生成的u-labels是显著的。我们相信,这些独立的u-labels可以帮助学习特定模态的表示。
6. 结论和未来工作
在本文中,我们引入了单模态子任务来辅助学习特定模态表示。与以往的工作不同,我们设计了一种基于自我监督方法的单模态标签生成策略,节省了大量的人力成本。大量实验验证了自动生成的单模态标签的可靠性和稳定性。我们希望这项工作能够为多模态表示学习提供一个新的视角。
我们还发现,受限于预处理的特征,生成的音频和视觉标签不够显著。在未来的工作中,我们将构建一个端到端的多模态学习网络,并探索单模态和多模态学习之间的关系。