Pascal voc 2012 数据集简介

1. 简介

Pascal VOC网址:http://host.robots.ox.ac.uk/pascal/VOC/

VOC2012数据集下载地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar

参考链接:https://blog.csdn.net/zz2230633069/article/details/84769339

Pascal VOC的三个主要物体识别竞赛是:分类,检测和分割(classification, detection, and segmentation)。对于分割任务, VOC2012的trainval包含2007-2011年的所有对应图片, test只包含2008-2011。trainval有 2913张图片共6929个物体。

2. 分类

总共20类如下(背景为第21类):

Person: person

Animal: bird, cat, cow, dog, horse, sheep

Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

序号为(0代表背景,1~20代表20个类别):

0

background

 

 

1

aeroplane

11

diningtable

2

bicycle

12

dog

3

bird

13

horse

4

boat

14

motorbike

5

bottle

15

person

6

bus

16

pottedplant

7

car

17

sheep

8

cat

18

sofa

9

chair

19

train

10

cow

20

tv

分布如下:

https://i-blog.csdnimg.cn/blog_migrate/6d7cacf9feede97cbf01cb0560c319c7.png

类别与颜色的对应关系如下:

一张标签图片总共有22种数字(0-20,255)其中0和255的颜色都是黑色RGB=(0,0,0),所以语义图总共有21种颜色。

 https://i-blog.csdnimg.cn/blog_migrate/fc5e1f1041725b0e2d92642a0a51547d.png

 

3. 具体文件

下载后得到如下压缩包:

在VOCdevkit/VOC2012下有5个文件夹,如下所示:

逐个介绍:

(1)Annotations

Annotations文件夹中存放的是xml格式的标签文件,每一个xml文件都对应于JPEGImages文件夹中的一张图片,共计17125个文件,如下所示:

以2007_000027.xml和2007_000032.xml文件为例,打开xml文件(截取部分):

2007_000027.xml文件:

2007_000032.xml文件:

红框标注部分表示是否可以用于分割:0否;1是。

(2)ImageSets

ImageSets存放的是每一种类型的challenge对应的图像数据。

在ImageSets下有四个文件夹:

Action:存放的是人的动作(running、jumping等等)

Layout:存放的是具有人体部位的数据(人的head、hand、feet等等)

Main:存放的是图像物体识别的数据,总共分为20类。

Segmentation:存放的是可用于分割的数据。

主要看Segmentation文件夹。其中包含了train.txt(1416张图)、val.txt(1449张图)和trainval.txt(2913张图)三个文本文件,里面储存的是用于语义分割的图片的名字(无扩展名)。train和val两者没有交集,即训练数据和验证数据不能有重复,随机产生而trainval则是两者的总和。

(3)JPEGImages

JPEGImages文件夹中包含了PASCAL VOC提供的所有的就jpg图片,共计17125张,包括了训练和测试图片。

这些图像都以“年份_编号.jpg”格式命名。

图片的像素尺寸大小不一,但是横向图的尺寸大约在500*375左右,纵向图的尺寸大约在375*500左右,长宽均不会超过512。

(4)SegmentationClass

保存了分割后的标签图(2913张png图片),标注出了每一个像素属于哪一个类别

(5)SegmentationObject

保存了分割后的标签图(2913张png图片),标注出了每一个像素属于哪一个具体的物体

对比上面两个文件夹中文件的区别:

注意:上面两个文件夹中的label图,位深度是8位,并不是RGB三通道,只是由于colormap的存在,使其看起来是彩色的(具体我也不太了解)。因此,在deeplabv3+方法中,准备数据时需要先去掉label们的colormap。

  • 15
    点赞
  • 87
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值