[翻译]Microsoft COCO-Common Objects in Context

Microsoft COCO-Common Objects in Context


翻译:Ruben
邮箱:lingyunzi09@gmail.com

摘要

本文展示了一个全新的数据集,目标是通过把物体识别放置在更广泛的场景理解问题之下,进而促进物体识别的发展。该数据集通过收集自然背景下复杂的日常生活场景图片而构建完成的。图片中的物体实例都进行了单独分割标注,这样做有助于提高物体定位的准确率。本数据集包含了91种物体类型的图像,这些物体类型能够被4岁大小的孩子豪不费力的识别出来。数据集有32.8万张图片,包含有250万个标注实例。众多众包人员通过使用先进的类别检测、实例标注、实例分割等用户界面创建了本数据集。本文提供了与PASCAL、ImageNet、SUN等数据集在统计学上的详细分析。最后,本文通过使用DPM提供边界框和分割检测结果作为基准性能分析。

1.引言

计算机视觉的一个首要任务之一就是对可见场景的理解。场景理解包含许多任务,包括识别呈现的是什么物体,2D和3D场景下物体定位, 获取物体和场景的属性, 物体特征之间的关系以及为场景提供语义描述. 当前的物体分类和检测数据集[1][2][3][4]帮助我们探索场景理解的第一步。例如ImageNet数据集[1], 包含了前所未有的大规模的图片,使得物体分类和检测取得突破性的进展[5][6][7]. 也有的机构创建了包含物体属性的数据集[8],场景属性[9], 关键点[10], 和3D场景信息[11] 。这就引出了一个显而易见的问题:哪一个数据集最适合继续促使我们向着场景理解的最终目标前进?

我们介绍一个大规模数据集,专注于场景理解中的三个核心问题:检测非图标视图(或者非标准布景[12])中的物体,物体之间的上下文推理,物体精确的2D定位。对于目录中的很多物体类别都有图标。比如在基于网络的图片搜索中搜索物体类别‘自行车’,排名最靠前的结果往往是一张轮廓简洁的、中间没有遮挡的照片。我们假设当前的识别系统在图标类型的视图上表现优异,但是很难识别出日常生活中天天需要遇到的场景中的物体,而这些场景中物体往往位于背景中的、存在部分遮挡、姿态等杂乱的[13]。我们实验性的验证过模型在我们提供的数据集上训练的结果要好于之前的那些数据集。在自然图片中识别出多个物体也是一种挑战。因为图片中物体存在小尺寸或者容易混淆的外观的问题,多个物体的分辨需要引入上下文。为了推进上下文推理的研究,需要用图像去描绘场景[3]而不是将物体之间孤立开。最后,我们详细的讨论了物体分布的空间理解将是场景分析中的核心部分。物体的空间分布能够粗略的使用边界框来定义[2]或者使用像素级别的精确分割[14][15][16]。正如我们示例的一样,为了测定这两种定义方式的性能,数据集的基本要求就是标注每一个物体的类别和全分割。我们的数据集特殊在于基于物体实例级别的分割,如图1所示。


这里写图片描述
图1:当前许多物体识别数据集都关注于(a)图片分类,(b)物体边界框定位或者(c)像素级语义分割,我们的重点在于(d)单个物体实例的分割。

我们引入了一个大的、有丰富标注的数据集,这些图片由日常生活中的生活场景图片组成。
为了构建实现上述三个目标的大规模数据集,我们使用了一种新颖的方法用于收集数据,大量的使用 Amazon Mechanical Turk服务(Amazon的众包服务)。第一也是最重要的,我们需要收集了一个大的数据集,包含了上下文关系和非标准的物体视图。在构建的过程中我们使用了一种非常简单的技术但是却很有效的方法,通过使用物体的名称对来查询图片从而将基于场景的图片查询关联在一起[17][3]。然后,使用多层次标注方法[18]对图片中包含的物体类别进行标注。对于每一个发现的类别,单独的实例将进行标注,验证,最后进行分割。考虑到标签的不确定,每一步的多方面权衡我们都将进行详细的探索。

MS COO (The Microsoft Common Objects in COntext )数据集包含有91中普遍的物体类别,其中82种拥有超过5K的标注实例,见Fig.6。数据集总共拥有32.8万张图片,包含250万个标注实例。对于著名的ImageNet数据集[1],COCO拥有更少的物体类别但是每一个类别拥有更多的实例。这有助于具体的物体识别模型学习到更精确的2D定位能力。本数据集每个类别的实例数目也明显比PASCAL VOC[2]和SUN[3]数据集多。此外,我们的数据集跟别的数据集的一个明显区别就是每一张图片的标注实例数目有助于学习到上下文信息,Fig.5。对比ImageNet(3.0)和PASCAL(2.3),MS COCO每一张图片包含更多的物体实例(7.7)。和SUN数据集相比,SUN虽然拥有有意义的上下文信息,且每一张图片拥有超过17个物体和物体的填充,但是总体来说物体的实例数目更少。MS COO这项工作的删减版本参考[19]。

2.相关工作

尽管计算机视觉的研究数据集的历史充满着批判角色。数据集不仅需要提供方法用于训练和评估算法,还需要促进研究走向更新更有挑战性的方向发展。如泉涌般创建的立体的和光学的真实数据集[20][21]极大刺激了人们对计算机视觉领域的广泛兴趣。早期的物体识别数据集的演进[22][23][24]帮助了上百种图像识别算法直接比较,与此同时也促进了这个领域研究更复杂的问题。最近,包含有百万图片的ImageNet数据集[1]在物体分类和检测的方面的研究因使用了深度学习算法取得了突破性成果[5][6][7]。物体识别相关的数据集能够粗略的根据专注的问题不同分为三个类别:物体分类、物体检测、场景语义标注。接下来将一个个介绍。

图片分类

物体分类任务需要二元标签注明物体是否在图片中出现;参考Fig.1(a)。早期的数据集中的图片背景空白只有单个的物体出现,比如MNIST手写数字数据集[25]或者COIL日常物体数据集[26]。 Caltech 101[22] 和Caltech 256[23]标志着开始转向从网络上检索的真实世界的物体,这种方式相应的将物体的类别从101扩展到256。流行机器学习社区中使用的数据集拥有很大数目的训练样本,CIFAR-10和CIFAR-100[27]分别提供了10种和100类别,图片分辨率都为32x32[28]。这些数据库包含有60k以上的图片以及上百种类别,但也只是我们真实世界中的一个很小的子集。最近,ImageNet[1]在数据集大小方面有了惊人的增长。他们计划的数据集拥有22k个类别,每个类别有500-1000张图片。跟以往的数据集不同的是,以往的数据集只有大类[29],比如狗或者单车[28],ImageNet使用WordNet的层级[30]用于对大类进行细分成小类[31]。当前,ImageNet数据集包含有1400w张标注图片,并且已经明显的促进了图像分类的发展[5][6][7]。

物体检测

物体检测需要完成两个任务:一个是物体属于哪个类别,一个是物体在图片中的位置。物体的位置通常使用边界框来表示,Fig.1(b)。早起算法聚焦于人脸检测[32]使用多种混合数据集。在之后,更多的现实以及挑战性的人脸检测数据集被创建[33]。另一个流行的挑战是行人检测,相应的对个数据集也被创建[24][4]。The Caltech Pedestrian Dataset[4]包含有35w用边界框标注的实例。

对于基本物体类别的检测,从2005到2012经过多年的努力致力于创建和维护的多个基准数据集已经得到广泛的应用。The PASCAL VOC[2]数据集包含有20个物体类别11k图片。超过27k的物体实例使用了边界框进行标注, 其中有7000进行了详细的分割.最近进行的一个物体检测挑战使用了ImageNet中40w中图片200个物体类别[34]。 令人深刻的是其中35w个物体使用了边界框进行标注。

因为某些物体的检测比如太阳镜、手机、椅子高度的依赖上下文信息,因而检测自然环境中包含这些物体的数据集显得尤为重要。在我们的数据集中尽量收集上下文信息丰富的图片。边界框的精度也限制了检测算法准确率的评估。我们建议使用全分割实例来获取更高的检测准确率。

语义场景标注

场景中的语义实体标注任务需要对每一个像素进行分类,比如天空,椅子,楼梯,街道等等。对于检测任务,单个物体实例不需要进行分割,Fig.1(c)。这使得单个实例的物体标注变得难以定义,比如草地,街道或者墙。室内[11]和室外[35]场景的数据集都有一些数据集也包含了深度信息[11]。和语义场景标注类似,我们的目标是测量像素级别的物体标注准确率。同时,我们也聚焦单个物体实例之间的区分,这需要对物体范围有一个坚实的理解。

SUN[3]数据集是一个新颖的数据集,它将物体检测和语义场景标注数据集的许多属性联系在一起。SUN包含了来自WordNet[30]字典中908个场景类别,每个场景中的物体都进行了分割。3819个物体类别跨越了物体检测数据集的类别(人,椅子,猫)和语义场景标注(墙,天空,楼梯)。因而这个数据集通过收集图片描绘了多个场景类型,每一个物体类别的实例数目展示了长尾效应。也就是说,小部分类别拥有更大数目的实例 (wall: 20,213, window: 16,080, chair: 7,971) ,然而更多的类别拥有极小的实例 (boat: 349, airplane: 179, floor lamp: 276)。在我们的数据集中,我们可以确定每一个物体类别都有显著的实例数目,Fig.5。

其他视觉数据集

这些数据集刺激了计算机视觉在多个领域的发展。一些重要的数据集包括 Middlebury的立体[20]、多视图立体[36]和光流视觉[

  • 6
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值