【24 Information Fusion】AOBERT: All-modalities-in-One BERT for multimodal sentiment analysis 论文总结

paper:论文地址
code:代码仓库

摘要

本文引入了一种单流变压器,all - modes - inone BERT (AOBERT)。该模型同时在两个任务上进行预训练:多模态掩模语言建模(MMLM)和对齐预测(AP)。模式之间的依赖和关系可以通过两个预训练任务来确定。AOBERT在CMU-MOSI, CMUMOSEI和UR-FUNNY数据集上取得了最先进的结果。

Introduction

首先肯定了多种模态对于情感分析任务的重要性,也即提出多模态情感分析(MSA)比仅使用文本的情感分析更准确。

多模态研究的目的是通过融合不同的模态来减少信息的损失。在先前的研究中,在输入阶段和预测阶段分别使用早期融合LSTM (EFLSTM)和后期融合LSTM (LF-LSTM)来融合来自不同模态的信息。

然而,这些方法对于反映模态间信息和模态内信息是无效的。此外,MCTN与递归神经网络(RNN)模型生成联合表示,这也导致了长期依赖问题。最近在NLP研究中提出了基于注意机制的transformer模型,以缓解长期依赖问题。特别是cross-transformer方法可以最大限度地减少信息的丢失,解决长期依赖问题。但是,由于cross-transformer方法假定每种模态的贡献相等,因此它使用的文本信息比其他方法少;因此很难达到令人满意的性能。GRU用于调整模态贡献的比例,比以前的方法需要更多的计算量。因此,需要先进的方法来有效地组合来自多模态的信息。

为了解决其他多模态研究中的cross-transformer问题,例如data2vec[9]、speech T5[10]和基于bert的多模态对话系统[11],本文提出了一种单流transformer。

在这些研究中,模型被训练为使用单个transformer学习两种模态间的关系。但是很难简单地增加模态的数量,为了解决这个问题,作者提出了AOBERT (all - modalites -in- one BERT),它是一个单流transformer,可以处理三种模态(文本、视觉和语音)作为一个网络的输入,用于情感分析和情感检测。我们还介绍了通过使用受BERT[12]启发的多模态掩模语言建模(MMLM)和对齐预测(AP)来生成可以反映每个模态特征的联合表示的方法。

AOBERT的主要贡献如下:
1)我们提出了一个在单个网络上学习三种模式的单流变压器模型。
2)该模型利用BERT启发的MMLM和AP任务学习联合表示。
3)实验结果表明,该模型在情感分析和情感检测三个基准数据集上的表现优于现有模型。

创新点概括及主要方法

1.问题定义

本文中作者主要以三种模态为主(文本+视觉+语音),其中,作者的输入以文本作为锚定模态,与另外两种模态进行配对,即
模态输入流
它们是长度为L的向量,维数分别是 d T , d V 和 d S d_T, d_V和d_S dT,dVdS。因为L是输入大小的固定长度,所以小于L的某些输入将包含零填充以适应大小。

AOBERT只使用 ( X T , X V ) , ( X T , X S ) (X_T, X_V), (X_T, X_S) (XT,XV)(XT,XS)这样的模态对,其中Text被用作锚定模态。模态对定义如下: T = ( X T ) T = (X_T) T=(XT) V ′ = ( X T , X V ) V ' = (X_T, X_V) V=(XT,XV) S ′ = ( X T , X S ) S ' = (X_T, X_S) S=(XT,XS),其中T, V '和S '在一个训练步骤中同时处理。
其次,对模态同时进行反向传播。模型的输出包括两个结果:情感和情感。情感(YS)和情感(YE)是基于文本标签的。YS为[-3,+3]范围内的实数,YE分为1或0,表示是否出现。

2. 主要模型

AOBERT的整体架构如图1所示。该模型可分为三个部分。第一部分是“联合嵌入”,在AOBERT部分之前将V '和S '等模态对连接起来。V′和S′是由节点嵌入中的“融合门”生成的。第二部分是AOBERT,它使用文本、视觉和语音模式的单流转换器模型。在AOBERT中,模型同时在两个任务上进行预训练:MMLM和AP。MMLM受vanilla BERT中的掩模语言模型(mask Language model, MLM)的启发,可以处理多模态数据。AP类似于vanilla BERT中的下一个句子预测(NSP)。NSP是一个理解句子关系的任务。类似地,AP可以通过预测多模态数据是否成对来理解模态关系。

AOBERT的结果是一个反映模态特征的联合表示,使用MMLM和AP。最后是情感分析和情感检测的分类器。
图1

2.1 Joint embedding

联合嵌入包括文本嵌入和融合门。文本嵌入包括标记嵌入和位置嵌入,它们分别将文本XT中的单词标记转换为实数,为文本提供位置信息。但是,由于Vision X V X_V XV和Speech X S X_S XS不具有顺序特征,因此不需要位置嵌入。该模型采用传统的BERT标记嵌入和位置嵌入,并将文本嵌入的输出作为融合门的输入。

2.2 The fusion gate

AOBERT使用三对T, V '和S '作为输入。V '和S '由Fusion Gate生成,T作为锚模态。首先,一个线性层匹配文本和其他模态之间的尺寸。随后,将两种不同的模态连接起来,并加入段嵌入来区分它们。最后,执行层归一化。其结构如下:
在这里插入图片描述
其中A⊕B定义为“融合A和B”,其中A代表文本情态,B代表另一种情态,如视觉或语音,在(1)中。这些情态因其特点而具有不同的维度。然而,由于AOBERT将文本模态设置为锚定模态,因此其他模态的维度会根据文本而变化。具体来说,通过Linear in将B投影为与A串联。根据项[A]中的序列长度将A与B’组合后;[A;B ']加入段嵌入(segment)。

片段嵌入用于区分标记属于香草BERT的句子。因此,对于A和b,它由0和1组成。同样,AOBERT使用分段嵌入来区分模态。最后,LN是正则化维数 d T d_T dT的LayerNorm层。
XV '和XS '的尺寸和长度为 r t ∗ 2 L r^{t*2L} rt2L。相比之下,XT的长度为L。

3. AOBERT

3.1 内部结构

联合嵌入的结果和 AOBERT 的输出是 H 个标记。在这 H 个标记中,H〈CLS〉 在池化层中被利用用于下游任务,池化层使用一个全连接层和 tanh 激活函数。经过对 T、V′ 和 S′ 的三对数据进行池化处理后,我们可以得到 ZT、ZV′ 和 ZS′,如下所示:
在这里插入图片描述
下图为AOBERT内部结构图:
在这里插入图片描述

3.2 Multimodal masked language modeling (MMLM)

MMLM任务类似于BERT中的MLM任务。然而,主要的区别在于通过只屏蔽文本来捕获文本和另一种模态之间的依赖关系。在预训练过程中,输入的token以15%的概率被随机屏蔽,然后将被屏蔽的token替换为一个特殊的token,如[MASK],一个随机token,或者保持不变,概率分别为80%,10%和10%。最后,训练该模型基于未屏蔽文本标记和来自其他模态的其他标记来预测屏蔽标记。

3.3 Alignment prediction (AP)

本文害基于NSP任务提出了AP任务。因为V '和S '包含两种不同的模态,所以应用AP来理解模态之间的关系。例如,从训练数据中选择pair V '中的XT和XV。XV与实际XT的配对概率为50% (IsPair),而XV与实际XT的配对概率为50% (UnPair)。IsPair和UnPair分别代表1和0。

3.4 分类和最终预测

为了获得有意义的联合表示,对每组对的H < CLS >推导出的ZT、ZV和ZS施加自注意力层。
[CLS]令牌仅用于分类任务。自注意层如图3所示,这是ZT的一个例子。最后,将每对的多模态联合表示连接并馈送到全连接层以预测结果。使用以下公式:
在这里插入图片描述
下列为自注意力层(图三):
在这里插入图片描述

3.5 损失函数

情感分析和情感检测使用不同的损失函数,由Ljoint和Ltask的和组成。Ljoint为联合损失函数,由MMLM和AP预训练任务组成。MMLM和AP任务使用CrossEntropy损失函数,分别记为LMMLM和LAP。Ljoint的计算如下:
在这里插入图片描述因为Ljoint是在三对中计算的,所以它有三种类型:LT, LV '和LS '。此外,LT没有LAP。最后的损失计算为Ltask和三个联合损失的平均值。模型的整体学习是通过最小化(7)来完成的。

在这里插入图片描述
Ltask是一个取决于任务的损失。由于情感分析是一个回归任务,Ltask使用均方误差(MSE)损失函数。

相反,交叉熵损失函数被用于情感和幽默的检测。

在这里插入图片描述

4. 数据集的使用

在本研究中,提出的AOBERT在CMU-MOSI[22]、CMU-MOSEI[20]和UR-FUNNY[23]数据集上进行了MSA和情绪检测的评估。关于数据集的信息如表1所示。
在这里插入图片描述

主要数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验细节

我们使用bert-large-uncase预训练模型训练AOBERT。

具体来说,我们使用学习率为5e-5或5e-4的Adam优化器,并使用earlystop训练网络100次。我们将CMU-MOSI的max_seq_len设置为40,CMU-MOSEI和URFUNNY的max_seq_len设置为50。掩蔽概率和AP比分别为15%和50%。

总结

MSA利用文本和各种模式,如视觉或语音来预测情绪。由于每种情态具有不同的特征,因此情态融合机制是必不可少的。因此,我们提出了AOBERT方法,它使用单流变压器。文本、视觉和语音通过一个网络,并通过MMLM和AP两个预训练任务进行处理。此外,我们在分类阶段提出了使用自注意的复杂预测。

为了验证所提出模型的性能,我们在三个数据集上进行了实验:CMU-MOSI、MOSEI和UR-FUNNY,分别用于MSA、情感检测和MHD。AOBERT优于先前提出的模型,包括最先进的模型MISA。此外,我们还进行了联合消融研究,考察了MMLM、AP和自我注意的影响,以证明每个组成部分的必要性。

情感分析具有多种极性,如矛盾心理[39]。

检测矛盾心理是一项重要的任务,但目前还没有针对矛盾心理极性的多模态数据集。为了检测真实世界对话中的情绪,可以使用MELD数据集[40]。它包含了1400多个对话和13000多个来自电视剧《老友记》的话语,用于情感识别。利用强化学习和领域知识,对MELD数据集进行实时视频情感识别[41]。因此,我们认为AOBERT可以改进以适应不同的极性和最近的努力。我们还可以对AOBERT进行微调,以用于其他多模态任务,例如视频问答,使用从模型中派生的联合表示。

  • 13
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值