目录
[2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input
文章链接
本文作者是马普所的Malinowski,这是第一篇提出将视觉和语言进行联合来回答问题的论文,但是对任务的定义不够明确,提出的数据集DAQUAR只有约12000个qa pair,图片是RGBD形式的,且我没找到下载链接。。。
在方法上,作者基于贝叶斯框架搭建了模型,并提出了两个针对不同场景的方法,分别是:Single-world approach和Multi-worlds approach。前者的整个过程可以归纳为:
P
(
A
∣
Q
,
W
)
=
∑
T
P
(
A
∣
T
,
W
)
P
(
T
∣
Q
)
P(A|Q,W)=\sum_{T}P(A|T,W)P(T|Q)
P(A∣Q,W)=∑TP(A∣T,W)P(T∣Q),后者的整个过程可以归纳为:
P
(
A
∣
Q
,
S
)
=
∑
W
∑
T
P
(
A
∣
W
,
T
)
P
(
W
∣
S
)
P
(
T
∣
Q
)
P(A|Q,S)=\sum_{W} \sum_{T} P(A|W,T) P(W|S) P(T|Q)
P(A∣Q,S)=∑W∑TP(A∣W,T)P(W∣S)P(T∣Q)
在实验结果上,作者使用WUP score作为评价指标,
[2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases
文章链接
本文一作Sadeghi出自华盛顿大学。以前的方法都关注于语言或文本的推理、验证,本文是第一个提出做视觉短语关系验证(visual verification of relation phrases)的。而本文模型,实际上,就是输入一个关系谓语,如“吃(马,草)”,就是“马吃草吗?”,模型通过对网络上的图片进行检索,建模,最终得出“是”这个答案。
本文的整体框架如下图所示,可以看出,这是一个无监督(额,检索过程实际上不是相当于用了别人训练好的检索模型?)的方法,首先对输入的关系谓语进行图片检索,使用五个不同的检测器对图片进行检测,再经过后处理得到结果。
后处理过程其实就是极大似然估计。
在实现上,作者使用[9]中的方法,分别训练S、O、SV、VO和SVO的检测器。然后,对于每个检测器,使用[16]中的方法,训练出一个DPM,视为一个组件。并在单独的验证步骤时,对有噪声的组件进行修剪。最终,通过factors将这些独立的检测器进行混合。
在Relation Phrase数据集上的实验结果:
参考文献
[9] S. Divvala, A. Farhadi, and C. Guestrin. Learning everything about anything: Webly-supervised visual concept learning. In CVPR, 2014. 2, 4, 6
[16] P. Felzenszwalb et al. Object detection with discriminatively trained part based models. PAMI, 2010. 2, 4
[28] J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann Publishers Inc., 1988. 4