Answer Them All! Toward Universal Visual Question Answering Models出自美国罗切斯特理工学院的Christopher Kanan组。
文章目录
Abstract
VQA的研究现状分两个阵营:
-
专注于需要现实图像理解的VQA数据集;
-
专注于检验推理能力的合成数据集。
按理说,一个好的VQA模型要能够在这两种情况下都表现很好,具备良好的泛化能力。但实际上,经过本文的实验对比,所有的方法都无法在领域之间做到泛化。
本文提出一种新的VQA算法,能够匹敌甚至超过这两个领域的最优方法。
Introduction
- 正确回答VQA的问题需要大量的能力:物体定位(Object location),属性检测(Attribute Detection),行为分类(Activity Classification),场景理解(Scene understanding),推理(reasoning),counting(计数)。