论文解读：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA

最新推荐文章于 2024-05-27 16:27:33 发布

yealxxy

最新推荐文章于 2024-05-27 16:27:33 发布

阅读量1.3k

点赞数

分类专栏： vqa问题文章标签： vqa 图像问答

本文链接：https://blog.csdn.net/u014248127/article/details/84887304

版权

12 篇文章 16 订阅

订阅专栏

这是关于VQA问题的第五篇系列文章。本篇文章将介绍论文：主要思想；模型方法；主要贡献。有兴趣可以查看原文：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering。

论文采用基于空间（图像）的记忆网络（记忆网络是NLP领域中的模型，用于处理逻辑推理的问题）。Spatial Memory Network把图像存区域当做记忆单元的内容，然后用问题去选择相关的区域回答问题。论文同时采用多次attention，模拟寻找答案的推理过程。

模型的结构和记忆网络的结构很相似：End to End Memory Network
在这里插入图片描述

这里处理的很少，只是用词向量做embedding，得到句子的词向量矩阵。shape：（T,N）T是问题长度。

Word-guided attention：图b中，用单词词向量去计算与图像的相关性。计算过程就是选择关系最大的，然后用softmax进行归一化。（公式符号对应图中）
计算第一次attention的结果：如图a
可以用这一次的attention的结果，加上问题进行预测了：如图a

关注

专栏目录