OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge
一句话总结
提出数据集OK-VQA,其中的问题均需要根据外部知识推理才能回答。
导论
Motivation:
现有VQA数据集中的大多数问题不需要逻辑推理或者与外部知识的联系,仅仅是有关数量、视觉属性以及物体检测的简单问题。
Contribution:
本文提出一个 只包含需要外部知识回答的问题 的数据集OK-VQA(Outside Knowledge VQA)。
VQA模型需要知道需要什么知识回答问题,学会如何从外部知识源检索到必要的知识,并使用非结构化的知识进行推理,以回答问题。
数据集
作者检测了VQA数据集中10000个问题的age annotations,对于每一个图文对,都会问一位工作者“这个问题年龄多大才能回答出来”,分析表示超过78%的问题可以由10岁或10岁以下的人回答,说明大多数问题几乎不需要多少背景知识。
使用来自COCO的随机图像,80k训练 40k验证。
两轮标注
第一轮 要求工作者为给定图像写一个问题,特别要求问题需要一些外部知识才能回答。
第二轮 要求每个图文对有五个不同的工作者为其标注一个答案。
进一步人工筛选需要外部知识回答的问题,滤到34921个问题。
潜在的Bias也是需要处理的问题,作者的做法是:
如果某个问题的答案作为最常见答案的实例超过5个,就删除这个问题,以此保证答案分布的均匀。
作者还删除了工作者在答案上无法达成一致的问题。
下图为本数据集中的一些示例。
数据集统计数据
由于人类拥有许多种不同种类的知识,为了更好地理解此数据集需要的知识种类,作者要求5名工作者将每个问题标注为下述10个知识类别中的一个。
- Vehicles and Transportation
- Brands, Companies and Products
- Objects, Materials and Clothing
- Sports and Recreation
- Cooking and Food
- Geography, History, Language and Culture
- People and Everyday Life, Plants and Animals
- Science and Technology
- Weather and Climate
- Other
若没有一个类别有多数票,则被分为Other。
问题的类别分布如下图所示:
OK-VQA数据集以较小的Size换取了更多的知识和更高的难度。
因为需要保证问题基于外部知识才能回答,且尽可能地移除了存在Bias的问题,所以数据集的规模较小也是比较合理的。
问题统计数据
一共14055个问题,其中12591个不重复问题,7178个不重复的问题单词。
作者还统计了每个知识类别相对频率最高的问题和答案中出现的单词,相对频率即类别中的频率除以总频率,如下图所示。
实验
ArticleNet
检索文章由三步组成:
- 为每个图文对收集可能的查询
做法:将问题中的单词和预训练的图像和场景分类器识别的单词结合起来,为每个问题提出所有可能的查询。 - 使用Wikipedia search API获取每个查询中检索到的第一篇文章。
- 对于每个查询及检索到的文章,根据查询词在句子中的频率,选择文章中最符合我们查询的句子,从而提取到每篇文章与查询最相关的一小部分。
接下来便是 过滤并编码这些检索到的句子,将其用于VQA。
作者训练了ArticleNet来预测ground truth答案是否出现在文章和每一句中,以及出现在何处。
实验结果
观察分析可知,MUTAN和BAN这类专门用于学习图像和问题之间的高级关联的VQA模型也在OK-VQA数据集上得到了远低于VQA数据集上的结果,表明OK-VQA不能简单地由一个聪明的模型来解决,而实际上需要结合图像之外信息的方法。
可以看到,尽管AN效果很差,但是与MUTAN BAN等模型结合时确实有所提升,由此可知AN所检索到的知识为这些模型提供了补充信息。
此外,作者还进行了消融实验并展示了定性例子,详情可参照原文。