Visual Genome :Connecting Language and Vision Using Crowdsourced Dense Image Annotations.

 

                                                                                      摘要

近年来,在深度学习的推动下,人工智能的三大方向(CV、Speech、NLP)取得了很多进展。在很多task上,AI的水平都达到甚至超越了人类baseline。

然而,在AI学术界存在的很多争论。其中有一个声音认为:现行的很多benchmark、challenge等竞赛的项目,都只是在一个特定数据集上进行着尽可能全面的“模式识别”,而不是在真正实现一个“强人工智能”。

现今很多Deep Learning模型也确实都是在把自己打造成一个“特征机器”,用各种难以解释的统计模型,将人工智能问题以拟合函数的角度来进行。

造成这个问题的很大一部分原因,就是因为现今数据集的目标大多是让AI学会“认识(Recognition)”,而非教会AI如何“认知(Cognition)”。

Li Fei-Fei团队认为:认知的核心任务不仅仅是进行识别,更重要的是要在一个视觉世界中进行推理:

当然,Li Fei-Fei团队主要的领域是Computer Vision,所以这里提到的是visual world。但是这个论点在其他领域中也是成立的。

例如在自动问答(Question Answering)领域,很多人将这个任务拆解成为通过ranking算法对经过retrieve得到的candidate answer进行排序的任务。或者直接利用大量经过低维度特征抽取(Word Embedding等)后的数据训练的生成模型来逼近答案数据的真实分布,从而以生成的方式教会AI如何直接“说出”答案。

但事实上,这些算法的核心思想仍然是对模型的拟合和对损失函数的优化。距离“强”智能、和“机器认知”还有一定的距离。

想要在认知任务上取的成功,则势必要对数据进行细粒度、广范围的标注。这样模型才能利用这些数据去理解对象之间的关系(relationships)、交互(interactions),甚至是理解整个世界。

这种对认知能力的处理,能让复杂问题的解答成为可能。

例如当输入一张图片和一个问题“What vehicle is the person riding?”,机器不但需要识别图片中的对象,更要能识别出对象之间的关系:riding(man, carriage)、pulling(horse, carriage),最终才能产生正确的答案:“The person is riding a horse-drawn carriage.”

于是,Li Fei-Fei团队设计了这样一个数据集:它不但包括了图像本身,更包括了图像内对象之间的关系等众多数据(包括objects、attributes、relationship等)。并希望通过这些数据能够推动“认知”这一问题在CV领域的发展。

Visual Genome一共包括了108K张图片,平均每张图片内包含了35个object,和26个attributes,以及21对object之间的relationship pair

除此之外,作者们还将其中所有的object、attributes、relationships和在region descriptions与question answer pairs中的名词短语都映射到了WordNet synset上。从而让打通了从CV到Knowledge乃至NLP之间的连接通道。

1. 介绍

CV的最终目标是构造一台机器能够完全理解一个视觉场景:它应该能够识别物体(object detection)、描述他们的属性(describe their attributes),并且能够识别object之间的relationships。

对场景的理解将会帮助例如图像搜索、VQA、机器人的交互系统等。而想要达成这些成就,海量数据是必不可少的。

下图显示了现今的model能够识别出场景中的物体,但是还不能解释物体之间的交互和关系:

近年来,有很多利用“下一代数据集”来进行训练和测试机器进行认知场景理解(cognitive scene understanding)和推理任务(reasoning tasks)的工作。其中最著名的莫过于MS-COCO和VQA。

MS-COCO包括了300K张从Filckr上收集的真实图片。每张图片都对80个物体classes(仅当图中出现)进行了像素的segmentation。并且每张图片还包含了5个相互独立的、由用户产生的描述场景的句子

VQA则对MS-COCO数据标注了共计614K个与每张图像相关的question answer pairs。

这两个数据集对object detection、segmentation和summary-level image captioning和简单的VQA都很大的帮助。但用这些数据集训练的模型缺乏对场景内物体的更深层次的理解。

例如对上面那张图片,MS-COCO上的state-of-the-art的结果只能产生这种level的描述文本:“two men are standing next to an elephant.”

但如果模型能够由更深层次的理解,显然能够根据图片中物体之间的关系,产生出更丰富的描述语句。

作者认为,想要让图片理解的更透彻,必须要在现有的数据集中添加三个要素:

  • 一个从视觉概念到文本的基本信息
  • 对每张图片都包括对图片内多个区域的完整的descriptions和QAs的数据集
  • 对图片中的每一个元素都有的一个形式化的表述方式

正是出于这个意图,Li Fei-Fei团队构建了Visual Genome数据集。

Visual Genome数据集发布的第一个版本包括了108,077张图片。这些图片是YFCC100M和MS-COCO的交集。

而Visual Genome与其他传统数据集的主要区别,就是它将图片内对关系(relations)和属性(attributes)的标注看作是重中之重。

因为在图片场景的高层次理解问题中,识别物体和他们之间的关系尤为重要,甚至会影响对图像解读的正确性。例如“a dog chasing a man” v.s. “a man chasing a dog”。

所以,为了完成“从视觉概念到文本的基本信息”这个任务,Visual Genome数据集首先对图像内对象的关系和属性有着详尽的标注。

除此之外,一个图像场景内应该包含了非常丰富的信息,显然不能只用一句话概括。而现存的诸如Flicker 30K和MS-COCO等数据集只关注在high-level description(尽管MS-COCO为每张图片提供多个description,但这些description是由多个不同用户提出的high-level description)。

所以,Visual Genome提供了对每场图片中场景的完整的description set。同时,受到VQA数据集的启发,基于图片的descriptions,对每张图片平均标注了17个question answer pairs。这使得同时利用NLP领域的description和CV领域的图像进行联合训练,来解决region-based question answers问题成为可能。

由于标注数据跨越了NLP(descriptions)和CV(images)两大领域,所以Visual Genome成为第一个对图像和文本提供了形式化表述的数据集。

例如对于上面的图片,可以将“holding”关系与“woman”和"food"对象形式化地表述为holding(woman,food)

在这个框架下,可以将所有的object和他们之间的关系组成一个"Scene Graph"。

除此之外,所有的图像中的objects、attributes和relationships都被映射到了一个WordNet ID(即synset ID)中。这个映射将Visual Genome中的一切内容关联到了一起,甚至可以用来在多张具有共性的图片之间训练与上下文有关的模型。

下图是一个Visual Genome的典型例子。

在这个例子中展示了三个区域的文本描述(A man and a woman sit on a park bench along a river; Park bench is made of gray weathered wood; The man is almost bald)和他们对应的区域图(region graphs,即每句话上面的那个小graph)。

如果将图中所有的概念用关系连接起来,会得到一个描述整张图片的graph。例如对区域描述“a man and a woman sit on a park bench along a river”莱索,这些连接对象的关系例如sits_on(man, bench), in_front_of(man, river)和sites_on(woman, bench)等。

下图是另一个例子

下面的graph是这张图片的scene graph。其中包含了很多objects (child, instructor, helmet, etc),这些object都被用bounding boxes标记出来(图片中没显示而已)。这些objects拥有它们自己的attributes: large, green, behind, etc. 最后,这些objects通过他们之间的关系被连接在一起:wears(child, helmet), wears(instructor, jacket), etc.

2. Visual Genome Data Representation

Visual Genome数据集中包括了七个主要的组成部分(components): region descriptions, objects, attributes, relationships, region graphs, scene graphs,和question answer pairs.

作者首先收集了大量的描述文本和QA pairs,而且这些原始文本数据没有长度和词表限制。然后从description文本中抽取objects, attributes和relationships。然后将这些objects, attributes和relationships组成scene graphs, 以此来作为整张图片的形式化表示(formal representation)

下图是一个例子

Visual Genome数据集中的每一张图片都包括一些区域描述(region descriptions),这些description用来描述图片的局部。同时作者还收集了两类question answer pairs (QAs): freeform QAs和region-based QAs.

其中freeform

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值