Microsoft COCO 数据集

本篇博客主要以介绍MS COCO数据集为目标,分为3个部分:COCO介绍,数据集分类和COCO展示

本人主要下载了其2014年版本的数据,一共有20G左右的图片和500M左右的标签文件。标签文件标记了每个segmentation的像素精确位置+bounding box的精确坐标,其精度均为小数点后两位。一个目标的标签示意如下:

 

 

{"segmentation":[[392.87, 275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23, 397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26, 328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73, 474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area": 28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox": [372.23, 266.38, 264.5,208.23], "category_id": 4, "id": 151109}, 

下面来介绍一下这个数据集。

 

COCO简介:

COCO数据集是微软团队获取的一个可以用来图像recognition+segmentation+captioning 数据集,其官方说明网址:http://mscoco.org/

 

该数据集主要有的特点如下:(1)Object segmentation(2)Recognition in Context(3)Multiple objects per image(4)More than 300,000 images(5)More than 2 Million instances(6)80 object categories(7)5 captions per image(8)Keypoints on 100,000 people

 

为了更好的介绍这个数据集,微软在ECCV Workshops里发表这篇文章:Microsoft COCO: Common Objects in Context。从这篇文章中,我们了解了这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。

 

该数据集主要解决3个问题:目标检测,目标之间的上下文关系,目标的2维上的精确定位。数据集的对比示意图:


 

数据集分类:

Image Classification:

分类需要二进制的标签来确定目标是否在图像中。早期数据集主要是位于空白背景下的单一目标,如MNIST手写数据库,COIL household objects。在机器学习领域的著名数据集有CIFAR-10 and CIFAR-100,在32*32影像上分别提供10和100类。最近最著名的分类数据集即ImageNet,22,000类,每类500-1000影像。

Object Detection:

经典的情况下通过bounding box确定目标位置,期初主要用于人脸检测与行人检测,数据集如Caltech Pedestrian Dataset包含350,000个bounding box标签。PASCAL VOC数据包括20个目标超过11,000图像,超过27,000目标bounding box。最近还有ImageNet数据下获取的detection数据集,200类,400,000张图像,350,000个bounding box。由于一些目标之间有着强烈的关系而非独立存在,在特定场景下检测某种目标是是否有意义的,因此精确的位置信息比bounding box更加重要。

Semantic scene labeling:

这类问题需要pixel级别的标签,其中个别目标很难定义,如街道和草地。数据集主要包括室内场景和室外场景的,一些数据集包括深度信息。其中,SUN dataset包括908个场景类,3,819个常规目标类(person, chair, car)和语义场景类(wall, sky, floor),每类的数目具有较大的差别(这点COCO数据进行改进,保证每一类数据足够)。


Other vision datasets:

一些数据集如Middlebury datasets,包含立体相对,多视角立体像对和光流;同时还有Berkeley Segmentation Data Set (BSDS500),可以评价segmentation和edge detection算法

 

COCO展示:

该数据集标记流程如下:


 

COCO数据集有91类,虽然比ImageNet和SUN类别少,但是每一类的图像多,这有利于获得更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。

COCO数据集分两部分发布,前部分于2014年发布,后部分于2015年,2014年版本:82,783 training, 40,504 validation, and 40,775 testing images,有270k的segmented people和886k的segmented object;2015年版本:165,482 train, 81,208 val, and 81,434 test images。

其性能对比和一些例子:



 

 

转载于:https://www.cnblogs.com/geekvc/p/6657369.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
COCO数据集是一个广泛使用的计算机视觉数据集,用于目标检测,分割和图像字幕等任务。以下是COCO数据集的详细介绍: 一、什么是COCO数据集COCO数据集Microsoft COCO(Common Objects in Context)计划的一部分,它包含超过33万张带注释的图像,涵盖了80个常见的对象类别。COCO数据集的目标是为计算机视觉领域的研究提供一个统一的基准,以便研究人员可以比较不同算法的性能。 COCO数据集可以应用到的Task: COCO数据集可以用于多种计算机视觉任务,包括目标检测,分割,关键点检测和图像字幕等。 一个简单的数据集实例展示: 以下是一个COCO数据集中的图像示例,其中包含了多个对象类别的实例标注。 附录80个类别: COCO数据集中包含了80个常见的对象类别,包括人,动物,交通工具,家具等。 二、COCO数据集的格式介绍 基础的数据格式介绍: COCO数据集中的每个图像都有一个唯一的ID,对应于一个JSON文件中的一个条目。每个JSON条目包含了图像的文件名,图像的宽度和高度,以及图像中每个对象的标注信息。 不同Task下的annotation: COCO数据集可以用于多种计算机视觉任务,因此在不同的任务下,标注信息的格式也有所不同。例如,在目标检测任务中,每个对象的标注信息包括对象的类别,边界框坐标等。 Object Detection annotation: 在目标检测任务中,每个对象的标注信息包括对象的类别,边界框坐标等。 other task: 在其他任务中,标注信息的格式也有所不同。例如,在图像分割任务中,每个像素都被标注为属于哪个对象。 Result format 输出格式: 为了便于比较,COCO采用统一的输出格式。具体格式形式可以参考:https://cocodataset.org/#format-results。 便于后续可以通过官方的测试集来和公共榜单上的结果比较。 三、COCO数据集的下载 COCO数据集可以从官方网站上下载,网址为:https://cocodataset.org/#download。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值