Improving Multimodal Accuracy Through Modality Pre-training and Attention

最新推荐文章于 2024-08-29 12:09:23 发布

Rainylt

最新推荐文章于 2024-08-29 12:09:23 发布

阅读量158

点赞数

分类专栏：多模态文章标签：人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lt1103725556/article/details/125635378

版权

多模态专栏收录该内容

4 篇文章 0 订阅

订阅专栏

paper:

发现多模态模型不同模态的收敛速度不一致，于是各自单独预训练，再用attention（非self-attn）得到不同模态的权重，乘上权重后concat->FC->logits

首先讲一下这里的attention。不是self-attention那种Q*K的机制，而是直接把三个模态的feature concat后，过FC得到权重：
在这里插入图片描述
H为三个模态（v, a, t）的feature，shape为（3，m）。输出三个模态的权重
根据作者观察发现，直接训多模态模型，不同模态的Loss下降速度不一致（收敛速度）：

三个图是不同数据集，第二个和第三个数据集还稍微好点，第一个数据集就text收敛太快。
看不同模态的权重：
在这里插入图片描述
可以看到第一个数据集在预训练之前text占了大部分权重，也许因为它比较重要，也可能是因为他的feature更优质。在预训练后video赶了上来，说明video之前只是feature没怎么训好而已。

三个模态，谁更重要其实是要视具体情况而定的：
在这里插入图片描述
这里三种模态都能表现出害怕

这里text和audio能表现出惊讶，但img就不行，表情比较平淡（其实不好说）

这个例子比较好，他虽然嘴上在道歉，但是实际上却在大笑，应该是一种开心的情绪，所以这里应该是audio占主导
本文提出的attention权重和这些重要性是能够对应上的：
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Improving Multimodal Accuracy Through Modality Pre-training and Attention

paper:发现多模态模型不同模态的收敛速度不一致，于是各自单独预训练，再用attention（非self-attn）得到不同模态的权重，乘上权重后concat->FC->logits首先讲一下这里的attention。不是self-attention那种Q*K的机制，而是直接把三个模态的feature concat后，过FC得到权重：H为三个模态（v, a, t）的feature，shape为（3，m）。输出三个模态的权重根据作者观察发现，直接训多模态模型，不同模态的Loss下降速度不一致（收敛速度
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。