Stacked Attention Networks for Image Question Answering

最新推荐文章于 2022-07-28 09:12:49 发布

这样子的话

最新推荐文章于 2022-07-28 09:12:49 发布

阅读量2.2k

点赞数 1

分类专栏： VQA 文章标签： VQA 视觉问答

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lsh894609937/article/details/68219797

版权

文章介绍了一种名为SAN的模型，用于解决视觉问答（VQA）任务。模型由Image Model、Question Model和Stacked Attention Networks三部分组成，通过多次迭代实现对图像相关区域的注意力聚焦。实验在四个数据集上验证了模型性能，并对错误类型进行了分析。

摘要由CSDN通过智能技术生成

这篇文章提出SAN模型，SAN将问题作为一个查询条件，在图中寻找与问题相关的区域，主要贡献：
1.提出SAN模型处理VQA任务；
2.在四个数据集上验证SAN模型的性能；
3.详细的分析了SAN不同层的输出，以及证明了多次执行SAN能有效的在图中注意到与问题相关的区域。
模型框架：
这里写图片描述
整个模型分为三个模块：Image Model，Question Model，Stacked Attention Networks
1.Image Model
利用VGGNet提取图像特征，选择的特征是最后一层池化层(last pooling layer)的特征，这层很好的保持了原始图像的空间信息。首先将图像尺寸改为448x448，经过VGGNet处理之后，提取的feature map 是512x14x14。14x14是区域的数量，512是每个区域向量的维度，每个feature map对应图像中32x32大小的区域。
2. Question Model
利用LSTM或者CNN提取文本特征。

最低0.47元/天解锁文章

这样子的话

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。