OD
dataset
目前object detection主要数据集为PASCAL-VOC,和MS COCO。本文就写这两个。
目前完成voc,coco之后再说
VOC2012
简述
官方文档:https://pjreddie.com/media/files/VOC2012_doc.pdf
VOC2012数据集分为20类,包括背景为21类,16135(测试)+17125(训练+验证)张图片,类别如下:
- Person: person
- Animal: bird, cat, cow, dog, horse, sheep
- Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
- Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
它可以完成的任务很多,官方文档中写了5个主要任务(其实我认为前三个比较主要)+2个额外任务:
-
分类(Classification)
-
检测(Detection)
-
分割(Segementation)
-
动作检测(Action Classification):有11个类,
jumping; phoning; playing a musical instrument; reading; riding a bicycle or motorcycle;
riding a horse; running; taking a photograph; using a computer; walking;
other;
-
为ILSVRC2012服务(Large Scale Visual Recognition Challenge 2012)(不知道是啥)
额外任务:
- 动作关键点检测
- 人的头、脚等部位的识别
需要指出的是,并不是所有图片都能完成某个任务,比如动作检测只会用到数据集中有做动作的人的图片。分割任务的标注只有2913张图片
满足检测任务的标注比满足分割任务的标注要多一些。
同一张图片或许有多个标注,比如同一张图有猫也有人
下载
下载方式:
- voc2012官网:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/ (打不开)
- yolo官网的voc2012镜像:https://pjreddie.com/projects/pascal-voc-dataset-mirror/
- kaggle上的voc2012:https://www.kaggle.com/huanghanchina/pascal-voc-2012#VOC2012.zip
- 数据集被分为:50%的训练集+验证集,50%的测试集,两个50%保持分布相同。
- voc2012包含voc2007~2011的内容,数据集相当于在不断扩充,变大。
- voc2012
我下载的的yolo官网的voc2012镜像,大约3G,可以放在电脑本地。
trainval文件目录结构:
-voc2012
-Annotations (用于检测任务,每张图片都有对应信息)
XXXX(年份)_XXXXXX(编号).xml (标识每张图片信息的文件,边界框位置和种类)
-ImageSets
-Action (用于动作检测的txt文件)
-Layout (不懂)
-Main (用于分类任务的txt文件)
-Segmentation (拥有Segmentation标注的文件名)
-JPEGImages(数据集存放位置,jpg格式)
-SegmentationClass(segmentation掩膜图存放位置,png格式,同类物体相同颜色)
-SegmentationObject(segmentation掩膜图存放位置,png格式,同类物体不同颜色)
其他
观察数据集特点:
- 数据集由于年代比较早,其中的手机是以前的老牌手机(所幸没有手机这个类别)。
- 个人感觉生活照很多,很贴近现实场景。
MS COCO
待更新