VOC 2007数据集结构
目录
一、数据集介绍
- Pascal VOC challenge是一个非常流行的数据集,用于构建和评估用于图像分类、对象检测和分割的算法。
- 这个挑战的目标是在现实场景中从大量的可视对象类中识别对象(即不是预先分割的对象)。有20个对象类:
- 有两个主要任务:
- 分类
- 检测
- 两个可尝试的额外任务:
- 分割
- 全称
The PASCAL Visual Object Classes Challenge 2007 (VOC2007)- PASCAL:pattern analysis,statistical modelling and computationallearning
- VOC:visual object classes
二、数据集文件结构
(一)总结构
- Annotations
- ImageSets
- Layout
- Main
- Segmentation
- JPEGImages
- SegmentationClass
- SegmentationObject
(二)Annotations
这个文件夹放置的是对每一张图片的标注,为XML文件。
JPEGImages文件夹中的每张图片都在此有对应的XML文件,文件命名格式为:<图片编号.xml>。
我们以000001.xml为例进行说明。
- 000001.jpg:
- 000001.xml:
<annotation>
<folder>VOC2007</folder>
<!--文件名-->
<filename>000001.jpg</filename>
<!--数据来源-->
<source>
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr</image>
<flickrid>341012865</flickrid>
</source>
<!--图片所有者-->
<owner>
<flickrid>Fried Camels</flickrid>
<name>Jinky the Fruit Bat</name>
</owner>
<!--图像尺寸,包括图像的宽、高、色彩通道数-->
<size>
<width>353</width>
<height>500</height>
<depth>3</depth>
</size>
<!--是否用于分割,0表示用于,1表示不用于-->
<segmented>0</segmented>
<!--object表示在图像中进行了标注的物体-->
<object>
<!--物体类别-->
<name>dog</name>
<!--拍摄角度-->
<pose>Left</pose>
<!--是否被裁剪,0表示完整,1表示不完整-->
<truncated>1</truncated>
<!--是否容易被识别,0表示容易,1表示困难-->
<difficult>0</difficult>
<!--bounding box的四个坐标,分别为左上角和右下角的x,y坐标-->
<bndbox>
<xmin>48</xmin>
<ymin>240</ymin>
<xmax>195</xmax>
<ymax>371</ymax>
</bndbox>
</object>
<object>
<name>person</name>
<pose>Left</pose>
<truncated>1</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>8</xmin>
<ymin>12</ymin>
<xmax>352</xmax>
<ymax>498</ymax>
</bndbox>
</object>
</annotation>
VOC 2007数据集中图片的bounding box的四个坐标分别为左上角和右下角的x,y坐标
(
x
m
i
n
,
y
m
i
n
,
x
m
a
x
,
y
m
a
x
)
(x_{min}, y_{min}, x_{max}, y_{max})
(xmin,ymin,xmax,ymax),且图片是1-base的,即图片左上角的点坐标为(1, 1)。
官方文档:The PASCAL Visual Object Classes Challenge
2007 (VOC2007) Development Kit,page:20
注释:照我们正常的理解来说,bndbox中表示的应当是矩形框的左下角和右上角坐标,但实际上这里使用的是以左上角为原点的屏幕坐标系,图示如下:
参考:屏幕坐标系,世界坐标系
(三)ImageSets
ImageSets存放的是每一种类型的challenge对应的图像数据。
- _train.txt 训练样本集
- _val.txt 验证样本集
- _trainval.txt 训练与测试样本汇总
- _test.txt 测试样本集
1、Layout
Layout下存放的是具有人体部位的数据(人的head、hand、feet等等,这也是VOC challenge的一部分)。
- test.txt
2、Main
Main下存放的是图像物体识别的数据,总共分为20类。
- car_train.txt
前面是图像编号,后面是正/负样本,其中1表示正样本,-1表示负样本。
注:还存在0,个人认为是无法判断是正样本还是负样本。
- 001057.jpg:1
- 000987.jpg:0
- 000964.jpg:-1
3、Segmentation
Segmentation下存放的是可用于分割的数据。
(四)JPEGImages
这个文件夹主要放置数据的原始图片,共9963张图片,文件命名格式为:<图片编号.jpg>。
(五)SegmentationClass
按类别进行图像分割,同一类别的物体会被标注为相同颜色。
- 000032.png
(六)SegmentationObject
按对象进行图像分割,即使是同一类别的物体会被标注为不同的颜色。
- 000032.png
参考
计算机视觉标准数据集整理—PASCAL VOC数据集
VOC2007数据集解析
Pascal VOC Dataset Mirror
数据集:Pascal VOC 2007数据集分析