Visual Genome
Connecting Language and Vision Using Crowdsourced Dense Image Annotations
数据集网址
摘要:
尽管在诸如图像分类等感知任务上取得了进展,计算机在诸如图像描述和问题回答等认知任务上仍然表现不佳。认知是任务的核心,认知不仅涉及了识别,而且包括对我们的视觉世界进行推理。然而,用于处理用于认知任务的图像中的丰富内容的模型仍然在使用为感知任务设计的相同数据集进行训练。为了在认知任务中获得成功,模型需要理解图像中对象之间的相互作用和关系。比如当被问及“What vehicle is the person riding?"时,计算机将需要识别图像中的物体以及riding(man,carriage)和pulling(horse,carriage)来正确地回答“the person is riding a horse-drawn carriage”。
在本文中,我们提出了Visual Genome数据集,来帮助这种关系的建模。我们收集每个图像中的对象、属性和关系的密集注释,以学习这些模型。具体而言,我们的数据集包含超过108K图像,其中每个图像平均有35个对象、26个属性和21个对象之间的成对关系。我们将区域描述和问题回答对中的对象、属性、关系和名词短语规范化为WordNet sysnets。这些注释一起表示图像描述、对象、属性、关系和问题答案对的最密集和最大的数据集。
2.Visual Genome的数据表示
VG数据集包含了7个主要的组件&#