2021.01.29 Visual QA论文阅读

最新推荐文章于 2022-04-29 12:42:34 发布

NeverMoreH

最新推荐文章于 2022-04-29 12:42:34 发布

阅读量397

点赞数 1

分类专栏： vision&language # visual question answering 文章标签： VQA

本文链接：https://blog.csdn.net/ms961516792/article/details/113369883

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual question answering

20 篇文章 3 订阅

订阅专栏

[2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input

文章链接
本文作者是马普所的Malinowski，这是第一篇提出将视觉和语言进行联合来回答问题的论文，但是对任务的定义不够明确，提出的数据集DAQUAR只有约12000个qa pair，图片是RGBD形式的，且我没找到下载链接。。。

在方法上，作者基于贝叶斯框架搭建了模型，并提出了两个针对不同场景的方法，分别是：Single-world approach和Multi-worlds approach。前者的整个过程可以归纳为： $P(A|Q,W)=\sum_{T}P(A|T,W)P(T|Q)$ ，后者的整个过程可以归纳为： $P(A|Q,S)=\sum_{W} \sum_{T} P(A|W,T) P(W|S) P(T|Q)$

在实验结果上，作者使用WUP score作为评价指标，

[2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases

文章链接
本文一作Sadeghi出自华盛顿大学。以前的方法都关注于语言或文本的推理、验证，本文是第一个提出做视觉短语关系验证（visual verification of relation phrases）的。而本文模型，实际上，就是输入一个关系谓语，如“吃（马，草）”，就是“马吃草吗？”，模型通过对网络上的图片进行检索，建模，最终得出“是”这个答案。

本文的整体框架如下图所示，可以看出，这是一个无监督（额，检索过程实际上不是相当于用了别人训练好的检索模型？）的方法，首先对输入的关系谓语进行图片检索，使用五个不同的检测器对图片进行检测，再经过后处理得到结果。