论文阅读 【Simple Baseline for Visual Question Answering】

一.介绍

 大多数方法都是用RNN提取文本特征,CNN提取图像特征后拼接,通过分类器预测答案。在此基础上,有些方法会加入视觉注意力机制。在图像注释任务上,只用词袋模型和CNN的方法虽然取得很好的效果,但在VQA上缺表现不如LSTM的方法。因此,本文根据该模型做出改进提出iBOWIMG.

 

二.方法

使用词袋模型提取问题的文本特征;使用GooLeNet提取视觉特征。问题先转换为独热向量,再通过词嵌入转换为特征。

 

三. 实验

 

分析:

  1. 文本特征对答案的贡献分数远大于图像特征
  2. 分析问题中每个单词的重要性
  3. 用 Class Activation Mapping (CAM) 获取图像中最显著的区域
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值