Challenge and tasks
给定自然图片, 从中识别出特定物体。
待识别的物体有20类:
- person bird, cat, cow, dog, horse, sheep
- aeroplane, bicycle, boat, bus, car, motorbike, train
- bottle, chair, dining table, potted plant,sofa, tv/monitor
有以下几个task:
- Classification(略过)
- Detection: 将图片中所有的目标用bounding box(bbox)框出来
- Segmentation: 将图片中所有的目标分割出来
- Person Layout(略过)
接下来本文只介绍Detection与Segmentation相关的内容。
Dataset
- 所有的标注图片都有Detection需要的label, 但只有部分数据有Segmentation Label。
- VOC2007中包含9963张标注过的图片, 由train/val/test三部分组成, 共标注出24,640个物体。
- VOC2007的test数据label已经公布, 之后的没有公布(只有图片,没有label)。
- 对于检测任务,VOC2012的trainval/test包含08-11年的所有对应图片。 trainval有11540张图片共27450个物体。
- 对于分割任务, VOC2012的trainval包含07-11年的所有对应图片, test只包含08-11。trainval有 2913张图片共6929个物体。
Detection Ground Truth and Evaluation
Ground truth
<annotation>
<folder>VOC2007</folder>
<filename>009961.jpg</filename>
<source>
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr</image>
<flickrid>334575803</flickrid>