Microsoft COCO 数据集

原创 2016年08月30日 20:33:49

本篇博客主要以介绍MS COCO数据集为目标,分为3个部分:COCO介绍,数据集分类和COCO展示

本人主要下载了其2014年版本的数据,一共有20G左右的图片和500M左右的标签文件。标签文件标记了每个segmentation+bounding box的精确坐标,其精度均为小数点后两位。一个目标的标签示意如下:

{"segmentation":[[392.87, 275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23, 397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26, 328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73, 474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area": 28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox": [372.23, 266.38, 264.5,208.23], "category_id": 4, "id": 151109}, 

具体的segmentation后面的数字到底是什么,说明有详细介绍,是分为RLE和Polygon两种形式的标签,具体标签说明见: http://mscoco.org/dataset/#download

下面来介绍一下这个数据集。


COCO简介:

COCO数据集是微软团队获取的一个可以用来图像recognition+segmentation+captioning 数据集,其官方说明网址:http://mscoco.org/

 

该数据集主要有的特点如下:(1)Object segmentation(2)Recognition in Context(3)Multiple objects per image(4)More than 300,000 images(5)More than 2 Million instances(6)80 object categories(7)5 captions per image(8)Keypoints on 100,000 people

 

为了更好的介绍这个数据集,微软在ECCV Workshops里发表这篇文章:Microsoft COCO: Common Objects in Context。从这篇文章中,我们了解了这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label

 

该数据集主要解决3个问题:目标检测,目标之间的上下文关系,目标的2维上的精确定位。数据集的对比示意图:



数据集分类:

Image Classification:

分类需要二进制的标签来确定目标是否在图像中。早期数据集主要是位于空白背景下的单一目标,如MNIST手写数据库,COIL household objects。在机器学习领域的著名数据集有CIFAR-10 and CIFAR-100,在32*32影像上分别提供10和100类。最近最著名的分类数据集即ImageNet,22,000类,每类500-1000影像。

Object Detection:

经典的情况下通过bounding box确定目标位置,期初主要用于人脸检测与行人检测,数据集如Caltech Pedestrian Dataset包含350,000个bounding box标签。PASCAL VOC数据包括20个目标超过11,000图像,超过27,000目标bounding box。最近还有ImageNet数据下获取的detection数据集,200类,400,000张图像,350,000个bounding box。由于一些目标之间有着强烈的关系而非独立存在,在特定场景下检测某种目标是是否有意义的,因此精确的位置信息比bounding box更加重要。

Semantic scene labeling:

这类问题需要pixel级别的标签,其中个别目标很难定义,如街道和草地。数据集主要包括室内场景和室外场景的,一些数据集包括深度信息。其中,SUN dataset包括908个场景类,3,819个常规目标类(person, chair, car)和语义场景类(wall, sky, floor),每类的数目具有较大的差别(这点COCO数据进行改进,保证每一类数据足够)。


Other vision datasets:

一些数据集如Middlebury datasets,包含立体相对,多视角立体像对和光流;同时还有Berkeley Segmentation Data Set (BSDS500),可以评价segmentation和edge detection算法。


COCO展示:

该数据集标记流程如下:



COCO数据集有91类,虽然比ImageNet和SUN类别少,但是每一类的图像多,这有利于获得更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。

COCO数据集分两部分发布,前部分于2014年发布,后部分于2015年,2014年版本:82,783 training, 40,504 validation, and 40,775 testing images,有270k的segmented people和886k的segmented object;2015年版本:165,482 train, 81,208 val, and 81,434 test images。

其性能对比和一些例子:





版权声明:本文为博主原创文章,未经博主允许不得转载。

Dataset - COCO Dataset 数据特点

COCO Dataset 数据特点COCO数据集有超过 200,000 张图片,80种物体类别. 所有的物体实例都用详细的分割mask进行了标注,共标注了超过 500,000 个物体实体....
  • oJiMoDeYe12345
  • oJiMoDeYe12345
  • 2017年05月31日 11:48
  • 5740

COCO数据库

COCO数据库 安装 数据集内容说明 COCO数据集的标注信息 补充阅读 图像识别计算机视觉领域的数据集分类介绍 Image Classification分类 Object Detection物体检测...
  • happyhorizion
  • happyhorizion
  • 2017年09月08日 14:45
  • 7375

MS coco数据集下载

登录ms-co-co数据集官网,一直不能进入,翻强之后开看到下载链接。有了下载链接下载还是很快的,在我这儿晚上下载,速度能达到7M/s,所以也不上传到网盘了,有需要的人等夜深人静的时候下载效果更佳哦。...
  • daniaokuye
  • daniaokuye
  • 2017年12月02日 23:12
  • 1765

MSCOCO dataset下载链接

  • 2015年12月14日 15:38
  • 502B
  • 下载

COCO 标注详解

COCO数据集的标注格式 COCO的 全称是Common Objects in COntext,是微软团队提供的一个可以用来进行图像识别的数据集。MS COCO数据集中的图像分为训练...
  • yeyang911
  • yeyang911
  • 2017年11月30日 14:35
  • 1011

coco数据集的处理

ssd中readme.md提供了对Coco的处理 ssd/caffe/data/coco/ ### Preparation 1. Download Images and Annotati...
  • guojingjuan
  • guojingjuan
  • 2016年07月21日 09:07
  • 7387

coco dataset solve

1,下载数据集cocodataset.org 2,download cocoapi: https://github.com/cocodataset/cocoapi 3,install and o...
  • fk1174
  • fk1174
  • 2017年10月08日 21:00
  • 634

数据集与标注等工具

~~因为不太会使用OpenCV、matlab工具,所以在找一些比较简单的工具。 . .一、NLP标注工具BRATBRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的...
  • Dlyldxwl
  • Dlyldxwl
  • 2017年07月28日 17:41
  • 3631

机器学习数据集(Dataset)汇总

1. CIFAR-10 & CIFAR-100     CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。     (类别:airplane,...
  • MyArrow
  • MyArrow
  • 2016年07月05日 09:27
  • 17828

MSCOCO dataset

  • 2016年04月19日 21:24
  • 502B
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Microsoft COCO 数据集
举报原因:
原因补充:

(最多只允许输入30个字)