读论文：Stacked Attention Networks for Image Question Answering

最新推荐文章于 2024-02-07 09:59:49 发布

dorisx

最新推荐文章于 2024-02-07 09:59:49 发布

阅读量250

点赞数 1

文章标签：计算机视觉网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dorisx/article/details/110086435

版权

读论文：Stacked Attention Networks for Image Question Answering

文章目录

一、概述
二、SAN的模型结构
三、数据集
四、总结

一、概述

本文介绍了堆叠式注意力网络（SAN），该网络学习从图像中回答自然语言问题。SAN使用问题的语义表示作为查询来搜索图像中与答案相关的区域，通过多次查询图像以逐步推断答案。并在四个图像QA数据集上进行了实验，观察验证结果可以发现本文提出的SAN明显优于以前的最新方法。注意层的可视化说明了SAN定位相关视觉线索的过程，这些线索可以逐层回答问题。

二、SAN的模型结构

1.整体结构

下图为SAN的整体结构图，该模型使用CNN来提取图像特征，使用LSTM或CNN来将问题“what are sitting in the basket on a bicycle?”转换成问题向量。然后在第一个视觉注意层将问题向量与检索到的图像向量相结合起来以形成精炼的查询向量，用来在第二个视觉注意层再次查询图像向量。较高级别的注意力层将注意力集中在与答案更相关的区域上，从而使注意力分布更加清晰。最后，我们将关注度最高的图层的图像特征与最后一个查询向量相结合，以预测答案。
在这里插入图片描述

2.内部结构

2.1 Image model

本文使用VGGNet来提取图像特征。首先把图像重新缩放为448

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
读论文：Stacked Attention Networks for Image Question Answering

读论文：Stacked Attention Networks for Image Question Answering文章目录前言一、概述二、SAN的模型结构1.整体结构2.内部结构2.1 Image model2.2 Question model2.2.1 LSTM based question model2.2.2 CNN based question model2.3 Stacked attention model三、数据集四、总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。