Pascal voc 2012 数据集简介

最新推荐文章于 2024-07-06 14:42:36 发布

米虫 Ian

最新推荐文章于 2024-07-06 14:42:36 发布

阅读量1.7w

点赞数 15

文章标签：语义分割数据集 Pascal voc 2012 深度学习

本文链接：https://blog.csdn.net/qq_36685744/article/details/85704371

版权

1. 简介

Pascal VOC网址：http://host.robots.ox.ac.uk/pascal/VOC/

VOC2012数据集下载地址：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar

参考链接：https://blog.csdn.net/zz2230633069/article/details/84769339

Pascal VOC的三个主要物体识别竞赛是：分类，检测和分割（classification, detection, and segmentation）。对于分割任务， VOC2012的trainval包含2007-2011年的所有对应图片， test只包含2008-2011。trainval有 2913张图片共6929个物体。

2. 分类

总共20类如下（背景为第21类）：

Person: person

Animal: bird, cat, cow, dog, horse, sheep

Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

序号为（0代表背景，1~20代表20个类别）：

0	background
1	aeroplane	11	diningtable
2	bicycle	12	dog
3	bird	13	horse
4	boat	14	motorbike
5	bottle	15	person
6	bus	16	pottedplant
7	car	17	sheep
8	cat	18	sofa
9	chair	19	train
10	cow	20	tv

分布如下：

类别与颜色的对应关系如下：

一张标签图片总共有22种数字（0-20，255）其中0和255的颜色都是黑色RGB=（0,0,0），所以语义图总共有21种颜色。

3. 具体文件

下载后得到如下压缩包：

在VOCdevkit/VOC2012下有5个文件夹，如下所示：

逐个介绍：

（1）Annotations

Annotations文件夹中存放的是xml格式的标签文件，每一个xml文件都对应于JPEGImages文件夹中的一张图片，共计17125个文件，如下所示：

以2007_000027.xml和2007_000032.xml文件为例，打开xml文件（截取部分）：

2007_000027.xml文件：

2007_000032.xml文件：

红框标注部分表示是否可以用于分割：0否；1是。

（2）ImageSets

ImageSets存放的是每一种类型的challenge对应的图像数据。

在ImageSets下有四个文件夹：

Action：存放的是人的动作（running、jumping等等）

Layout：存放的是具有人体部位的数据（人的head、hand、feet等等）

Main：存放的是图像物体识别的数据，总共分为20类。

Segmentation：存放的是可用于分割的数据。

主要看Segmentation文件夹。其中包含了train.txt（1416张图）、val.txt（1449张图）和trainval.txt（2913张图）三个文本文件，里面储存的是用于语义分割的图片的名字（无扩展名）。train和val两者没有交集，即训练数据和验证数据不能有重复，随机产生而trainval则是两者的总和。

（3）JPEGImages

JPEGImages文件夹中包含了PASCAL VOC提供的所有的就jpg图片，共计17125张，包括了训练和测试图片。

这些图像都以“年份_编号.jpg”格式命名。

图片的像素尺寸大小不一，但是横向图的尺寸大约在500*375左右，纵向图的尺寸大约在375*500左右，长宽均不会超过512。

（4）SegmentationClass

保存了分割后的标签图（2913张png图片），标注出了每一个像素属于哪一个类别。

（5）SegmentationObject

保存了分割后的标签图（2913张png图片），标注出了每一个像素属于哪一个具体的物体。

对比上面两个文件夹中文件的区别：

注意：上面两个文件夹中的label图，位深度是8位，并不是RGB三通道，只是由于colormap的存在，使其看起来是彩色的（具体我也不太了解）。因此，在deeplabv3+方法中，准备数据时需要先去掉label们的colormap。

米虫 Ian

关注

15
点赞
踩
87

收藏

觉得还不错? 一键收藏
1
评论
Pascal voc 2012 数据集简介

1. 简介Pascal VOC网址：http://host.robots.ox.ac.uk/pascal/VOC/VOC2012数据集下载地址：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar参考链接：https://blog.csdn.net/zz2230633069/article/...
复制链接

扫一扫