2021.01.30 Visual QA论文阅读

[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images

文章链接
本文和NIPS2014那篇文章一样,出自马普所的Malinowski。2014那篇是依据语义解析器进行视觉问答,本文使用的是端到端的LSTM。作者还基于DAQUAR数据集搜集了额外的答案,构建了DAQUAR-Consensus数据集,并提出了两个新的metric。

x x x表示输入图片,用 q q q表示输入问题,用 a a a表示模型输出的答案。作者在第t个时间步时,将 v t = [ x , [ q , a ] ] v_t=[x,[q,a]] vt=[x,[q,a]]输入LSTM模块,训练时, a a a为gt,测试时, a = [ a 1 , . . . , a t − 1 ] a=[a_1,...,a_{t-1}] a=[a1,...,at1]

在DAQUAR数据集上的实验结果:

下图是在DAQUAR-Consensus数据集上的实验结果,其中ACM(Average Consensus Metric)和MCM(Min Consensus Metric)是本文提出的新metric,前者定义为 1 N K ∑ i = 1 N ∑ k = 1 K min { ∏ a ∈ A i max t ∈ T k i μ ( a , t ) , ∏ t ∈ T k i max a ∈ A i μ ( a , t ) } \frac{1}{NK} \sum_{i=1}^{N} \sum_{k=1}^{K} \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \} NK1i=1Nk=1Kmin{aAimaxtTkiμ(a,t),tTkimaxaAiμ(a,t)}。后者定义为 1 N ∑ i = 1 N max k = 1 K ( min { ∏ a ∈ A i max t ∈ T k i μ ( a , t ) , ∏ t ∈ T k i max a ∈ A i μ ( a , t ) } ) \frac{1}{N} \sum_{i=1}^{N} \text{max}_{k=1}^K ( \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \}) N1i=1Nmaxk=1K(min{aAimaxtTkiμ(a,t),tTkimaxaAiμ(a,t)})。其中, A i A^i Ai是模型对第 i i i个问题的答案, T k i T^i_k Tki是人类对第 i i i个问题的第 k k k中可能的回答, μ ( a , t ) \mu(a,t) μ(a,t)是一个评价指标,比如WUP。


[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering

文章链接
本文作者出自北卡罗来纳大学,一作为Licheng Yu。本文主要是提出了两个新task,并构造了数据集Visual Madlibs。第一个task是targeted natural language generation,简称TNLG,第二个是multiple-choice question answering,简称MCQA。

TNLG任务其实和image caption任务类似,不同的点在于,TNLG是填空式caption,输入是:一张图片、一个Instruction和一个Prompt,需要模型输出blank处的答案。MCQA任务的输入包含TNLG的输入,但多了许多个候选答案,模型需要选出最适合填入blank中的答案。

实验上,作者在一些baseline方法,还有一些简单的joint-embedding方法上进行了对比,下面是MCQA任务的实验结果。


[2015][ICCV] VQA: Visual Question Answering

文章链接
本文出自Virginia Tech和微软研究院,一作是Stanislaw Antol。本文是第一篇明确提出VQA(Visual Question Answering)任务的文章。VQA任务定义为:输入文本形式问题+一张图片,输出文本形式答案。且此任务是开放、自由的,不提供候选答案(虽然本文提到他们也提出了多选VQA任务),也不fill in blank。

本文构造的数据集叫作VQA v1.0,包含265016张图片(来自COCO),每张图片有至少3个问题,每个问题有10个候选答案、3个假答案。

在实验部分,本文构建了两个简单的baseline model。首先,取数据集中最常见的1000中答案,作为备选(基本可以回答82.67%的问题)。分别训练一个MLP和LSTM+softmax模型,将VQA问题视为1000分类问题去训练,作为baseline。下图是实验结果,Q代表question,I代表image,C代表caption(图片的human caption结果),表示在不同的输入下,模型的结果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值