2021.01.29 Visual QA论文阅读

[2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input

文章链接
本文作者是马普所的Malinowski,这是第一篇提出将视觉和语言进行联合来回答问题的论文,但是对任务的定义不够明确,提出的数据集DAQUAR只有约12000个qa pair,图片是RGBD形式的,且我没找到下载链接。。。

在方法上,作者基于贝叶斯框架搭建了模型,并提出了两个针对不同场景的方法,分别是:Single-world approach和Multi-worlds approach。前者的整个过程可以归纳为: P ( A ∣ Q , W ) = ∑ T P ( A ∣ T , W ) P ( T ∣ Q ) P(A|Q,W)=\sum_{T}P(A|T,W)P(T|Q) P(AQ,W)=TP(AT,W)P(TQ),后者的整个过程可以归纳为: P ( A ∣ Q , S ) = ∑ W ∑ T P ( A ∣ W , T ) P ( W ∣ S ) P ( T ∣ Q ) P(A|Q,S)=\sum_{W} \sum_{T} P(A|W,T) P(W|S) P(T|Q) P(AQ,S)=WTP(AW,T)P(WS)P(TQ)

在实验结果上,作者使用WUP score作为评价指标,


[2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases

文章链接
本文一作Sadeghi出自华盛顿大学。以前的方法都关注于语言或文本的推理、验证,本文是第一个提出做视觉短语关系验证(visual verification of relation phrases)的。而本文模型,实际上,就是输入一个关系谓语,如“吃(马,草)”,就是“马吃草吗?”,模型通过对网络上的图片进行检索,建模,最终得出“是”这个答案。

本文的整体框架如下图所示,可以看出,这是一个无监督(额,检索过程实际上不是相当于用了别人训练好的检索模型?)的方法,首先对输入的关系谓语进行图片检索,使用五个不同的检测器对图片进行检测,再经过后处理得到结果。

后处理过程其实就是极大似然估计。

在实现上,作者使用[9]中的方法,分别训练S、O、SV、VO和SVO的检测器。然后,对于每个检测器,使用[16]中的方法,训练出一个DPM,视为一个组件。并在单独的验证步骤时,对有噪声的组件进行修剪。最终,通过factors将这些独立的检测器进行混合。

在Relation Phrase数据集上的实验结果:

参考文献
[9] S. Divvala, A. Farhadi, and C. Guestrin. Learning everything about anything: Webly-supervised visual concept learning. In CVPR, 2014. 2, 4, 6
[16] P. Felzenszwalb et al. Object detection with discriminatively trained part based models. PAMI, 2010. 2, 4
[28] J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann Publishers Inc., 1988. 4

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值