多模态论文总结(一)

Multimodal Transformer for Unaligned Multimodal Language Sequences

Tsai Y H H, Bai S, Liang P P, et al. Multimodal transformer for unaligned multimodal language sequences[C]//Proceedings of the conference. Association for Computational Linguistics. Meeting. NIH Public Access, 2019, 2019: 6558.

解决问题:

1.不同模态序列的可变采样率而导致的固有数据不对齐(对齐问题)

2.跨模态元素之间的长期依赖关系。(如图所示,传统的多模态融合利用的是Word-level alignment,而本文采用Crossmodel attention来捕获长距离依赖关系。)

 

一.背景

如图1所示,人类语言通常是多模态的,包括视觉,语音以及文本三个模态,而每个模态又包含很多不同信息,比如文本模态包括基本的语言符号、句法和语言动作等, 语音模态包括语音、语调以及声音表达等,视觉模态包括姿态特征、身体语言、眼神以及面部表达等信息 。

多个模态信息之间是相互补充的,同时多个模态的信息之间也存在冗余,图中的例子做出了很好的说明。

二.模型描述

本文要构建多个模态间的交互信息,而时间序列长度又不同,采用Crosss-modal Transformer的结构来构建不同模态之间的关系,下图为模型总览图。

 其中L(language),V(video),A(audio),首先将上述三类特征输入的卷积层,提取不同模态的特征,然后通过Crosss-modal Transformer提高跨潜在模态适应性(we hypothesize a good way to fuse crossmodal information is providing a latent adaptation across modalities)。每一个Crosss-modal Transformer的block的输入都是两个模态,其过程如下图所示:

 由模态Y适应X时,把X的特征通过LN扩展为Q,Y为K和V,该操作类似于传统的Transformer,但把输入换掉,这里在特征输入前还引入了位置信息得到Z(常规操作不是重点。)

最后把三个 Crosss-modal Transformer的结果输入常规Transformer后concat,然后softmax出结果。

本文重点在多模态特征融合上,实验部分做的做的很好,可以阅读原文。

最后只能说Transformer   YYDS!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值