论文解读:Stacked Attention Networks for Image Question Answering

这是关于VQA问题的第二篇系列文章,这篇文章在vqa领域是一篇比较有影响的文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:Stacked Attention Networks for Image Question Answering。原论文中附有作者源码。

1,论文想法

作者认为在vqa(图像问答中),带有一定的推理过程。比如:“what are sitting in the basket on a bicycl”,在这个问题中,按照人为的思路,先定位到自行车,再定位到自行车的兰州,最后看篮子上是什么。这是个推理过程

作者采用attention机制来实现这种分层关注的推理过程。在问题特征提取和图像特征提取的思路并没有很特殊,采用LSTM,CNN网络来提取特征。然后用问题特征去attention图像,用attention的结果结合问题向量再次去attention图像,最后产生预测。
(ps:论文的数学公式是LSTM,TextCNN,attention的公式,没有其他的数学公式,有疑问可以补补,这篇文章不会从数学的角度介绍)

2,模型

模型和大多数的vqa问题一样,有三部分组成,图像特征、文本特征、attention部分。
在这里插入图片描述

a.图像特征提取

利用VGGNet提取图像特征,选择的特征是最后一层池化层(last pooling layer)的特征,这层很好的保持了原始图像的空间信息。首先将图像尺寸改为448x448,经过VGGNet处理之后,提取的feature map 是512x14x14。14x14是区域的数量,512是每个区域向量的维度,每个feature map对应图像中32x32大小的区域。

b.问题特征:采用LSTM或者TextCNN

在这里插入图片描述

在这里插入图片描述

c.Stacked Attention Networks

通过多次迭代实现图像区域的Attention。第一次用文本向量去attention图像,得到一个向量;用得到的attention向量加上问题向量,再次去attention图像,得到新的attention向量。之后重复这个过程,最后用softmax预测。
在这里插入图片描述
在这里插入图片描述

3,主要贡献

  • 提出SAN模型处理VQA任务;
  • 在四个数据集上验证SAN模型的性能;
  • 详细的分析了SAN不同层的输出,证明了每次attention都是一次推理的过程。 每次attention都可以关注更细的内容
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值