(2023 CICAI)Text-oriented Modality Reinforcement Network for MSA from Unaligned Multimodal Sequences

本文提出TMRN模型,聚焦于文本模态在多模态序列分析(MSA)任务中的核心作用。TMRN通过跨模态注意模块(TCCA)和文本门控自注意模块(TGSA)强化特征表示,实现文本与其他模态的高效交互,提升在MOSI和MOSEI基准上的性能。
摘要由CSDN通过智能技术生成

一、介绍

由于相似性,不做背景介绍。
文章贡献:

  1. 提出了TMRN,这是一种专注于文本模态在MSA任务中的主导地位的方法。TMRN以文本模态为主线,与其他两种模态相互作用和强化,以获得低冗余和去噪的特征表示。

  2. 提出了一个以文本为中心的跨模态注意(TCCA)模块和一个文本门控的自注意(TGSA)模块来挖掘模态间和模态内的上下文关系。

  3. 在两个人类多模态语言基准MOSI和MOSEI上进行了一组全面的实验。实验表明,我们的方法在这两个数据集上达到了最先进的方法。

二、相关工作

基于注意力机制

三、模型架构

3.1整体架构
在这里插入图片描述
(1)单模态特征提取:Bert处理文本特征,Bi-LSTM处理语音和视频特征。最后投影到一个固定维度,Fm∈{t,a,v}。
(2)模态强化:该部分由交叉堆叠的TCCA和TGSA模块组成,将特征分为视觉-文本对和听觉-文本对,以文本模态为查询进行交叉注意,而对文本模态进行自注意。然后,采用自适应融合机制进行融合。然后,我们将文本模态作为一扇门,在视觉/听觉模态的自我强化过程中加入先验知识。
(3)融合和输出模块

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一颗2021

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值