用于非对齐多模态语言序列的多模态转换器
论文介绍
原著:
《Multimodal Transformer for Unaligned Multimodal Language Sequences》
2019 AAAI International Conference.
研究问题
-
多模态情况下,各个模态的信息存在互补,另外也存在信息冗余,因此如何进行有效融合?
-
现在关于多模态的情感分析研究中,都是通过对齐各模态的特征,在时间序列上进行融合。
eg:获取 words 的 time-stamps(时间戳), 然后将audio和visual的信息对齐到 word,再将audio和visual的特征对齐到word。
然而强调一致性一是在技术上存在挑战,另一方面可能造成某些模态的重要信息丢失。因而对非对齐下的多模态信息进行研究。
目前情感识别主流的方法都是基于 word-level alignment(对齐文本) 多模态序列上,但是这种方法存在两个问题:
-
由于来自每个模态的序列的采样率不同,各个模态的数据之间是非对齐的。
-
跨模态元素之间的长期依赖性(比如在说完悲伤的词话后会皱眉,而皱眉与之前悲伤的词有关)。
多模态的融合展示: