一、介绍
由于相似性,不做背景介绍。
文章贡献:
-
提出了TMRN,这是一种专注于文本模态在MSA任务中的主导地位的方法。TMRN以文本模态为主线,与其他两种模态相互作用和强化,以获得低冗余和去噪的特征表示。
-
提出了一个以文本为中心的跨模态注意(TCCA)模块和一个文本门控的自注意(TGSA)模块来挖掘模态间和模态内的上下文关系。
-
在两个人类多模态语言基准MOSI和MOSEI上进行了一组全面的实验。实验表明,我们的方法在这两个数据集上达到了最先进的方法。
二、相关工作
基于注意力机制
三、模型架构
3.1整体架构
(1)单模态特征提取:Bert处理文本特征,Bi-LSTM处理语音和视频特征。最后投影到一个固定维度,Fm∈{t,a,v}。
(2)模态强化:该部分由交叉堆叠的TCCA和TGSA模块组成,将特征分为视觉-文本对和听觉-文本对,以文本模态为查询进行交叉注意,而对文本模态进行自注意。然后,采用自适应融合机制进行融合。然后,我们将文本模态作为一扇门,在视觉/听觉模态的自我强化过程中加入先验知识。
(3)融合和输出模块