2021.02.01 Visual QA论文阅读

[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering

文章链接
本文提出了一个多语言的VQA数据集FM-IQA,包含中文(英文)问题和答案。本文方法现在看来很简单,使用CNN提取图像特征,使用LSTM提取问题特征,使用另一个LSTM编码答案中的上下文,再将三个模块的结果融合,生成最终答案。

本文构造的数据集包含158392张图片,316193个中文问题(英文问题个数一致)

实验上,作者构造了baseline模型——blindQA(在融合模块上,不输入image feature),实验结果如下图所示:


[2015][NIPS] Exploring Models and Data for Image Question Answering

文章链接
本文出自多伦多大学Mengye Ren,作者提出了一个端到端的QA模型,使用VGG19提取图片特征后,将特征进行放射变换,作为question中的第一个单词输入LSTM,最后通过softmax得到答案。

作者提出了一个question generation方法,并基于此方法构造了COCO-QA数据集。question generation方法共分为三步:① 使用斯坦福解析器对图片进行解析;② 生成四类问题(Object、Number、Color和Location);③ 后处理:reject答案出现频率过高(或过低)的QA pair。下表是数据分布:

实验上,作者在DAQUAR和COCO-QA上做了实验,并进行了可视化:


[2016][AAAI] Learning to Answer Questions from Image Using Convolutional Neural Network

文章链接
本文出自华为诺亚方舟实验室。CNN已经在多个任务中展露出不俗的表现,但是还没有被引用在VQA任务中,作者遂将CNN应用在了VQA中。

本文方法共包含三个CNN部分,第一个CNN用于提取图片特征,第二个CNN用于提取文本特征,第三个CNN用于提取多模态特征。值得一提的是,在第三个CNN中,输入是 [ V q t i , V i m , V q t i + 1 ] [V_{qt}^{i}, V_{im}, V_{qt}^{i+1}] [Vqti,Vim,Vqti+1]

实验部分,本文在DAQUAR和COCO-QA上进行了实验,结果如下:



[2016][CVPR] Answer-Type Prediction for Visual Question Answering

文章链接
本文的出发点在于,在很多时候,根据问题,即可以确定候选答案。如“这是一个红色的马吗?”,答案只有可能是“是”或者“不是”,而不可能是“绿色”或者“30”。然而,现有的方法中没有显式的进行这种推理。

本文的贡献共包括两方面:① 第一个使用贝叶斯架构预测答案类型,且准确率达到了99.7%。② 在VQA任务中使用skipthought vector[8],这是2015年在NIPS上提出的新方法,将句子编码成向量的同时,可以保存显著的句子信息。

作者对比了目前的4个VQA数据集,十分细致:

在没有给定答案类别的数据集(如DAQUAR),作者规定了三种类别,分别是:Number、Color和Others。对于给定了答案类别的数据集,COCO-QA作者没做处理,直接使用数据集提供的Object、Color、Counting和Location。COCO-VQA(也就是VQA v1.0),作者将Number类细分为了Counting和Other numbers,并添加了COCO objects和Activity两个类别,前者对应于答案是COCO数据集中的一种object,后者对应于问题以playing和doing为结尾的QA pair。

对于给定的图片的特征 x x x、给定的问题的特征 q q q,本文的目标是预测 P ( A = k ∣ x , q ) = ∑ c ∈ T P ( A = k , T = c ∣ x , q ) P(A=k|x,q) = \sum_{c \in T}P(A=k, T=c|x,q) P(A=kx,q)=cTP(A=k,T=cx,q)。其中, A A A是答案, T T T是答案类别。根据贝叶斯公式可得:
P ( A = k , T = c ∣ x , q ) = P ( x ∣ A = k , T = c , q ) P ( A = k ∣ T = c , q ) P ( T = c ∣ q ) P ( x ∣ q ) P(A=k, T=c|x,q) = \frac{P(x|A=k,T=c,q)P(A=k|T=c,q)P(T=c|q)}{P(x|q)} P(A=k,T=cx,q)=P(xq)P(xA=k,T=c,q)P(A=kT=c,q)P(T=cq)
将上式中分子的三个部分分别用①②③表示。对于②和③,作者使用逻辑回归分类器去建模;对于①,作者将其建模为下式的多元条件高斯:
P ( x ∣ A = k , T = c , q ) = N ( x ∣ μ ‾ k , c , q , Σ ‾ k , c ) P(x|A=k,T=c,q)=\mathcal{N}(x|\overline{\mu}_{k,c,q},\overline{\Sigma}_{k,c}) P(xA=k,T=c,q)=N(xμk,c,q,Σk,c)

在四个数据集上的实验结果:

[8] R. Kiros, Y. Zhu, R. Salakhutdinov, R. S. Zemel, A. Torralba, R. Urtasun, and S. Fidler. Skip-thought vectors. In NIPS, 2015. 2, 6


[2016][CVPR] Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

文章链接
本文出自阿德莱德大学吴琦老师,是第一篇提出使用外部知识库进行VQA的文章。本文的动机很明显,在VQA任务中,难免会出现一些涉及到常识的问题,此时单纯的依靠数据集中给的Image、Question难以给出合适的回答。具体的例子如下图所示:

本文的方法如下图所示,先对图片进行区域提取,提取特征后,使用SOTA caption方法生成描述,并基于检测的topK属性去外部知识库中找到相关知识,将两部分文本信息(caption结果、知识库查询结果)和视觉信息共同输入LSTM。

本文的实验结果非常好,在COCO-QA数据集上比SOTA高大概14个百分点。

在VQA数据集上也超过SOTA很多。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值