数据集Pascal VOC2012

写在前面

PASCAL VOC为图像识别提供了一套标准化的优秀的数据集。其三个主要的物体识别竞赛分别是分类classification, 检测detection, 分割segmentation。

PASCAL---- Pattern Analysis, Statistical Modelling and Computational Learning,分别是 模式分析、 统计建模、 计算学习;

VOC----Visual Object Class, 视觉对象类;

对于分割任务, VOC2012的trainval包含2007-2011年所有对应图片,test只包含2008-2011,trainval有2913张图片,共6929个物体。

分类

总共分成20+1类,有20类物体,第21类为背景:
Person : person

Animal : bird , cat , cow , dog , horse , sheep

Vehicle : aeroplane , bicycle , boat , bus , car , motorbike , train

Indoor: bottle, chaire, dining-table, potted plant, sofa, tv/monitor

编号分别如下:(序号为(0代表背景,1~20代表20个类别)

0        background
1     aeroplane11dining-table
2bicycle12dog
3bird13horse
4boat14motorbike
5bottle15person
6bus16pottedplant
7car17sheep
8cat18sofa
9chair19train
10cow20tv

每个类别的分布如下:

https://img-blog.csdnimg.cn/20181203163516136.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3p6MjIzMDYzMzA2OQ==,size_16,color_FFFFFF,t_70

类别与颜色的对应关系如下(RGB数值)

https://img-blog.csdnimg.cn/20181204191620805.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3p6MjIzMDYzMzA2OQ==,size_16,color_FFFFFF,t_70

具体文件

下载后得到如下压缩包:(图是在linux系统下的图标)

解压后如图所示:

 1、JPEG IMAGES

该文件夹包含了PASCAL VOC所提供的所有的信息图片,包括训练图片和测试图片。

这些图片的命名格式都是“年份_编号.jpg”,图片大小尺寸不一,横向图尺寸大概在500*375,纵向图尺寸大约在375*500, 偏差在100之内。

2、Annotations

此文件夹存放的是xml格式的标签文件,每个xml文件都与JPEGImages中的图片一一对应。

以2007_000392为例,xml文件的具体格式如下所示:

<annotation>
	<folder>VOC2012</folder>                           
	<filename>2007_000392.jpg</filename>                               //文件名
	<source>                                                           //图像来源(不重要)
		<database>The VOC2007 Database</database>
		<annotation>PASCAL VOC2007</annotation>
		<image>flickr</image>
	</source>
	<size>					                           //图像尺寸(长宽以及通道数)						
		<width>500</width>
		<height>332</height>
		<depth>3</depth>
	</size>
	<segmented>1</segmented>		                           //是否用于分割(在图像物体识别中01无所谓)
	<object>                                                           //检测到的物体
		<name>horse</name>                                         //物体类别
		<pose>Right</pose>                                         //拍摄角度
		<truncated>0</truncated>                                   //是否被截断(0表示完整)
		<difficult>0</difficult>                                   //目标是否难以识别(0表示容易识别)
		<bndbox>                                                   //bounding-box(包含左下角和右上角xy坐标)
			<xmin>100</xmin>
			<ymin>96</ymin>
			<xmax>355</xmax>
			<ymax>324</ymax>
		</bndbox>
	</object>
	<object>                                                           //检测到多个物体
		<name>person</name>
		<pose>Unspecified</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>198</xmin>
			<ymin>58</ymin>
			<xmax>286</xmax>
			<ymax>197</ymax>
		</bndbox>
	</object>
</annotation>

其对应的图片如下:

这里仅对比较重要的做出解释:

  • size

    size下包括了与图片尺寸相关的信息,其中 :

    • width为宽度
    • height为高度
    • depth为图片的通道数(彩色图像为3通道,灰度图为1通道)。
  • segmented

    表示图像是否进行分割,1表示是,0表示否。

  • object

    object下包括的是目标检测的相关信息,object可以出现多个。其中:

    • name表示物体的名字
    • pose表示拍摄的角度
    • truncated表示目标检测的框是否被截断,1表示是,0表示否
    • difficult 表示目标是否难以识别,1表示是,0表示否
    • bndbox 下包括的是目标检测框的位置信息
      • xmin,ymin 表示检测框的左上角
      • xmax,ymax 表示检测框的右下角

3、ImageSets

该文件夹下存放的是每一种类型的challenge对应的图像数据,包含4个子文件夹:

  • Action下存放的是人的动作
  • Layout下存放的是人的部位的数据
  • Main下存放的是 物体识别 的数据,总共分为20类
  • Segmentation下存放的是用于 分割 的数据

Main文件

包含了20个分类的不同的 ***_train.txt, ***_val.txt, ***_trainval.txt。截图如下:

从图片中右边打开的txt文件可见:

最左一列为图片的name,后面的 1 表示这个样本为正样本, -1表示这个样本为负样本。

train里面放的是训练使用的数据,每一个CLASS有5717个;

val里面放的是验证结果使用的数据,每一个CLASS有5823个;

trainval是将上面两个进行合并;

Action文件

一共花分类11个动作类别,如下图所示: 

下图为具体的TXT文件内容:第一列为图片名,第二列为上表中的序号,第三列为样本属性:1为正样本;-1为负样本; 

LAYOUT

Layout文件夹存储的是人体部位识别竞赛中相关的数据集图片列表。

具体内容如下图所示:

第一列为图片名,第二列为图片中所包含的人数。 

4、SegmentationClass & SegmentationObject

这个文件夹里面存放的是与 物体分割任务相关的图片。如下图展示:

上面的文件夹为SegmentationClass;存放语义分割图;标注每一个像素属于哪一个类别;

下面的文件夹为SegmentationObject; 存放实例分割图;标注每一个像素属于哪一个物体;

放一个图可以进行直观的对比:

2007_000042图片及其语义分割、实例分割掩模图

 可以看到同样是火车,语义分割时两个时同一个颜色,在实例分割时则为不同颜色。

在voc数据集里面,分割的颜色与类别对应关系如下图所示:

这里强调一点,这两个文件夹下面的图片位深度是8。

这里对比一下RGB图像的位深度位24,每个通道都有8位。而8位深的图像一般都是灰度图像,这是VOC2012 mask的特殊性。

PS:我也不太懂“ 由于colormap”的存在,使其看起来是彩色的,在deeplabv3+,准备数据时要去掉label的colormap” 。

下载

另附,voc2007,voc2012镜像下载的链接:

https://pjreddie.com/projects/pascal-voc-dataset-mirror/

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值