用于非对齐多模态语言序列的多模态转换器

最新推荐文章于 2024-07-17 09:19:55 发布

crazy637

最新推荐文章于 2024-07-17 09:19:55 发布

阅读量1k

点赞数

分类专栏：论文阅读文章标签：自然语言处理机器学习情感分析 python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lfb637/article/details/116070522

版权

该博客探讨了在非对齐多模态序列中，如何使用多模态转换器（MulT）进行有效信息融合。 MulT通过跨模态注意机制解决了对齐挑战，尤其在情感分析任务中表现出色。实验结果显示，尽管非对齐数据处理的性能稍逊，但 MulT 提供了一种新的无对齐数据处理途径。

摘要由CSDN通过智能技术生成

目录

用于非对齐多模态语言序列的多模态转换器

论文介绍

原著：
《Multimodal Transformer for Unaligned Multimodal Language Sequences》
2019 AAAI International Conference.

研究问题

多模态情况下，各个模态的信息存在互补，另外也存在信息冗余，因此如何进行有效融合？
现在关于多模态的情感分析研究中，都是通过对齐各模态的特征，在时间序列上进行融合。

eg：获取 words 的 time-stamps（时间戳）, 然后将audio和visual的信息对齐到 word，再将audio和visual的特征对齐到word。

然而强调一致性一是在技术上存在挑战，另一方面可能造成某些模态的重要信息丢失。因而对非对齐下的多模态信息进行研究。

目前情感识别主流的方法都是基于 word-level alignment（对齐文本）多模态序列上，但是这种方法存在两个问题：
由于来自每个模态的序列的采样率不同，各个模态的数据之间是非对齐的。
跨模态元素之间的长期依赖性（比如在说完悲伤的词话后会皱眉，而皱眉与之前悲伤的词有关）。

多模态的融合展示：

最低0.47元/天解锁文章

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
用于非对齐多模态语言序列的多模态转换器

目录用于非对齐多模态语言序列的多模态转换器研究问题研究方法创新点数据集技术介绍输出思考用于非对齐多模态语言序列的多模态转换器研究问题多模态情况下，各个模态的信息存在互补，另外也存在信息冗余，因此如何进行有效融合？现在关于多模态的情感分析研究中，都是通过对齐各模态的特征，在时间序列上进行融合。eg：获取 words 的 time-stamps（时间戳）, 然后将audio和visual的信息对齐到 word，再将audio和visual的特征对齐到word。然而强调一致性一是在技术上存在挑
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。