多模态融合(六)An Improved Attention for Visual Question Answering

最新推荐文章于 2024-04-25 10:40:17 发布

薛定猫的谔w

最新推荐文章于 2024-04-25 10:40:17 发布

阅读量653

点赞数

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdn_tclz/article/details/110325012

版权

论文提出Attention on Attention (AoA)方法，针对视觉问题回答任务改进了多模态融合策略，旨在解决模型在缺乏紧密上下文时可能产生的注意力噪声问题。AoA通过调整原有Self-Attention和Global-Attention结构，提高VQA性能。

摘要由CSDN通过智能技术生成

背景

论文来源https://arxiv.org/abs/2011.02164
暂未接收可信度值得考量
这篇论文是在杭电MCAN论文基础上做的改进。

摘要

作者提出了一种Attention on Attention(AoA)的方法以及新的多模态融合方法以用于VQA任务中。

动机

作者认为，MACN中使用的SA和GA的不足：
尽管这种注意力的表达方式和高度灵活，但它仍有局限性。具体来说，结果总是模型所关注的值对的加权组合。当模型所处的没有紧密相关的上下文时(例如，一个单词没有上下文单词或图像区域存在)，这可能会产生问题。在这种情况下，注意力会导致噪声，或者更糟的是，分散注意力的输出向量进而对性能产生负面影响。
（个人理解，这个motivation不是很有说服力，如果没有强相关的上下文，那么加权时候对应的元素分配极小的权重不就可以了吗？另外本来权重参数都是自适应学习的）

方法

作者改进后的SA和GA结构示意图如下。改动部分红框标出：
在这里插入图片描述

最低0.47元/天解锁文章

薛定猫的谔w

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。