2021.02.03 Visual QA论文阅读

[2016][CVPR] Stacked Attention Networks for Image Question Answering

文章链接
本文出自CMU+微软研究院(何晓冬),应该是第一篇提出VQA需要多步推理的文章。本文的动机来自于:在VQA任务中,question和answer往往只和image中的部分信息相关,而现有方法使用image的global feature,这会带来噪声,降低准确性。

在方法上,本文主要包括三个部分:① 使用VGG提取image feature,大小为 512 × 14 × 14 512 \times 14 \times 14 512×14×14,作者将每个 14 × 14 14 \times 14 14×14视为一个region,也就是每个region feature为 512 × 1 512 \times 1 512×1。② 使用CNN或者LSTM提取question feature。③ 基于image feature和question feature生成region level的attention,基于此attention对image feature进行“优化”,基于优化后的image feature对question feature进行“优化”,使其同时具有视觉和语言的信息。多步推理体现在重复进行多次③(文中是两次)。

下面是实验结果,包括DAQUAR、COCO-QA和VQA,结果很好。


[2016][CVPR] Visual7W: Grounded Question Answering in Images

文章链接
文章出自斯坦福李飞飞组。本文的动机和SAN类似,作者认为,直接使用global feature是不好的,应该建立local region link。文中提到这样一句话:a tighter semantic link between textual descriptions and corresponding visual regions is a key ingredient for better models. 和global image-level associations相比,object-level grounding可以降低关联歧义。

本文的方法如下图所示,就是在传统的global方法[28]上,添加了一个spatial attention。

本文的另一大贡献是,构造了Visual7W数据集。这是一个multiple-choice数据集,包含327939个QA pair,47300张图片,1311756个choice,561459个object level标注和36579个类别。为什么数据集叫7W呢,因为从what、where、when、who、why、how和which,这七种W出发构造的数据集。值得一提的是,本文将前6种W称为telling questions,而which称为pointing questions,它们的区别也很显然(which的答案是image中的region,而非文本答案):

Visual7W和现有数据集的对比,如下图所示:

下面是实验结果,添加了spatial attention可以提高4个百分点。

[28] M. Malinowski, M. Rohrbach, and M. Fritz. Ask your neurons: A neural-based approach to answering questions about images. ICCV, 2015. 2, 5, 7

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值