论文解读:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA

这是关于VQA问题的第五篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering

1,主要思想:

论文采用基于空间(图像)的记忆网络(记忆网络是NLP领域中的模型,用于处理逻辑推理的问题)。Spatial Memory Network把图像存区域当做记忆单元的内容,然后用问题去选择相关的区域回答问题。论文同时采用多次attention,模拟寻找答案的推理过程。

2模型:

模型的结构和记忆网络的结构很相似:End to End Memory Network
在这里插入图片描述

a.问题特征部分:

这里处理的很少,只是用词向量做embedding,得到句子的词向量矩阵。shape:(T,N)T是问题长度。

b.图像特征部分:
  • 这里处理的也很少,用CNN提取各个区域的特征,GoogLeNet (inception 5b=output)。shape:(L,M)L是特征个数。
  • 之后为了使得图像特征和问题特征维度一样,采用了两个矩阵进行变换,W_a,W_e。
c.Word Guided Spatial Attention in One-Hop Model(一次attention):
  • Word-guided attention:图b中,用单词词向量去计算与图像的相关性。计算过程就是选择关系最大的,然后用softmax进行归一化。(公式符号对应图中)
    在这里插入图片描述
    在这里插入图片描述

  • 计算第一次attention的结果:如图a
    在这里插入图片描述

  • 可以用这一次的attention的结果,加上问题进行预测了:如图a
    在这里插入图片描述
    在这里插入图片描述

d.Spatial Attention in Two-Hop Model(多次attention,模拟推理)
  • 计算第一次attention的结果,加上问题:如图a
    -

  • 计算下一次attention的权重:如图a
    在这里插入图片描述
    在这里插入图片描述

  • 计算这一次attention的结果:
    在这里插入图片描述

  • 预测答案:
    在这里插入图片描述

3,论文贡献:

  • 提出使用Spatial Memory Network,模拟多次关注的寻找答案的推理过程。
  • 在第一次attention时,提出了用每一个单词去计算与图像的相关性。从而实现第一次的相关性权重的计算。
  • 实现了,多次attention,很好的结合的每次计算的结果用于答案的预测,从而实现模拟推理过程。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值