用于非对齐多模态语言序列的多模态转换器

该博客探讨了在非对齐多模态序列中,如何使用多模态转换器(MulT)进行有效信息融合。 MulT通过跨模态注意机制解决了对齐挑战,尤其在情感分析任务中表现出色。实验结果显示,尽管非对齐数据处理的性能稍逊,但 MulT 提供了一种新的无对齐数据处理途径。
摘要由CSDN通过智能技术生成

用于非对齐多模态语言序列的多模态转换器

论文介绍

原著:
《Multimodal Transformer for Unaligned Multimodal Language Sequences》
2019 AAAI International Conference.

研究问题

  • 多模态情况下,各个模态的信息存在互补,另外也存在信息冗余,因此如何进行有效融合?

  • 现在关于多模态的情感分析研究中,都是通过对齐各模态的特征,在时间序列上进行融合。

    eg:获取 words 的 time-stamps(时间戳), 然后将audio和visual的信息对齐到 word,再将audio和visual的特征对齐到word。

    然而强调一致性一是在技术上存在挑战,另一方面可能造成某些模态的重要信息丢失。因而对非对齐下的多模态信息进行研究。

    目前情感识别主流的方法都是基于 word-level alignment(对齐文本) 多模态序列上,但是这种方法存在两个问题:

  • 由于来自每个模态的序列的采样率不同,各个模态的数据之间是非对齐的。

  • 跨模态元素之间的长期依赖性(比如在说完悲伤的词话后会皱眉,而皱眉与之前悲伤的词有关)。

多模态的融合展示:

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值