论文解读：Stacked Attention Networks for Image Question Answering

最新推荐文章于 2022-08-03 10:15:01 发布

yealxxy

最新推荐文章于 2022-08-03 10:15:01 发布

阅读量1.9k

点赞数 1

分类专栏： vqa问题文章标签： vqa 图像问答

本文链接：https://blog.csdn.net/u014248127/article/details/84726837

版权

vqa问题专栏收录该内容

12 篇文章 16 订阅

订阅专栏

这是关于VQA问题的第二篇系列文章，这篇文章在vqa领域是一篇比较有影响的文章。本篇文章将介绍论文：主要思想；模型方法；主要贡献。有兴趣可以查看原文：Stacked Attention Networks for Image Question Answering。原论文中附有作者源码。

1，论文想法

作者认为在vqa（图像问答中），带有一定的推理过程。比如：“what are sitting in the basket on a bicycl”，在这个问题中，按照人为的思路，先定位到自行车，再定位到自行车的兰州，最后看篮子上是什么。这是个推理过程

作者采用attention机制来实现这种分层关注的推理过程。在问题特征提取和图像特征提取的思路并没有很特殊，采用LSTM，CNN网络来提取特征。然后用问题特征去attention图像，用attention的结果结合问题向量再次去attention图像，最后产生预测。
（ps：论文的数学公式是LSTM，TextCNN，attention的公式，没有其他的数学公式，有疑问可以补补，这篇文章不会从数学的角度介绍）

2，模型

模型和大多数的vqa问题一样，有三部分组成，图像特征、文本特征、attention部分。
在这里插入图片描述

a.图像特征提取

利用VGGNet提取图像特征，选择的特征是最后一层池化层(last pooling layer)的特征，这层很好的保持了原始图像的空间信息。首先将图像尺寸改为448x448，经过VGGNet处理之后，提取的feature map 是512x14x14。14x14是区域的数量，512是每个区域向量的维度，每个feature map对应图像中32x32大小的区域。

b.问题特征：采用LSTM或者TextCNN

在这里插入图片描述

c.Stacked Attention Networks

通过多次迭代实现图像区域的Attention。第一次用文本向量去attention图像，得到一个向量；用得到的attention向量加上问题向量，再次去attention图像，得到新的attention向量。之后重复这个过程，最后用softmax预测。
在这里插入图片描述

3，主要贡献

提出SAN模型处理VQA任务；
在四个数据集上验证SAN模型的性能；
详细的分析了SAN不同层的输出，证明了每次attention都是一次推理的过程。每次attention都可以关注更细的内容

yealxxy

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文解读：Stacked Attention Networks for Image Question Answering

这是关于VQA问题的第二篇系列文章，这篇文章在vqa领域是一篇比较有影响的文章。本篇文章将介绍论文：主要思想；模型方法；主要贡献。有兴趣可以查看原文：Stacked Attention Networks for Image Question Answering。原论文中附有作者源码。1，论文想法作者认为在vqa（图像问答中），带有一定的推理过程。比如：“what are sitting in ...
复制链接

扫一扫

专栏目录