Hierarchical Question-Image Co-Attention for Visual Question Answering

  当前基于视觉注意的一些VQA方法主要关注:”where to look”或者 visual attention。本文认为基于问题的attention “which word to listen to ” 或者question attenion也相当重要。基于这个动机,文中提出一种多模注意模型:Co-attention + Question Hierarchy。
  Co-attention:这个部分包括基于图像的attention和基于问题的attention。图像的表示有助于提取Question Attention,同理问题的表示也有助于视觉注意的提取。
  Question Hierarchy:论文提出一种图像和问题协同注意的分层架构,主要分为三层。
  a).word level。将每个单词表示成向量
  b) phrase level 利用一个1D CNN提取特征
  c) question level 利用RNN编码整个问题。
  这篇论文的主要贡献:
  1.提出co-attention mechanism 机制处理VQA任务,并且采用两种策略应用这中机制,parallel and alternating co-attention。
  2.采用分层结构表示问题,因此构建的image-question co-attention maps分为三个层次:word level, phrase level and question level.
  3.在phrase level,采用convolution-pooling strategy 自适应选择phrase size。
  4.在VQA dataset和COCO-QA上进行测试。
  论文整体框架:
  

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值