PASCAL VOC2012数据集的下载及简单讲解

最新推荐文章于 2025-04-09 21:02:44 发布

Ring__Rain

最新推荐文章于 2025-04-09 21:02:44 发布

阅读量1.5w

点赞数 24

分类专栏：深度学习 pytorch

本文链接：https://blog.csdn.net/qq_30263737/article/details/114918719

版权

深度学习同时被 2 个专栏收录

50 篇文章

订阅专栏

pytorch

35 篇文章

订阅专栏

本文详细介绍了PASCALVOC2012数据集的下载方式、数据集结构及各部分含义，包括图像的标注信息、目标检测分类信息等，并给出了数据集的具体使用流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转自：https://blog.csdn.net/qq_44396101/article/details/109563892

如题，我本身也是一个初学者，本篇文章是我在了解PASCAL VOC数据集中所学习到的，因此记录下来与大家分享，如果有不对的地方还希望大家指正。

PASCAL VOC挑战赛是世界级的计算机视觉挑战赛，PASCAL的全称是：Pattern Analysis，Statistical Modelling and Computational Learning Visual Objection Classes，是一个由欧盟资助的网络组织，挑战赛主要分为以下几类：图像分类，目标检测，目标分割以及动作识别等。

一、PASCAL VOC2012数据集的下载

由于我下载的时候官网打不开，因此找到了一个镜像网站，大家可以直接复制到迅雷中下载，还是比较快的。https://pjreddie.com/media/files/VOCtrainval_11-May-2012.tar

二、PASCAL VOC2012数据集的内容

解压下载的文件，里面结构如下：
在这里插入图片描述

1.Annotations

这个文件夹下的内容为所有图像的标注信息，均为XML文件。
在这里插入图片描述
就像这样，任选其中一个打开可以看到如下信息，’#'后的是我加上的注释：

<annotation>
	<folder>VOC2012</folder>#图片所在的文件夹
	<filename>2007_000033.jpg</filename>#所对应的图片名称
	<source>
		<database>The VOC2007 Database</database>
		<annotation>PASCAL VOC2007</annotation>
		<image>flickr</image>#来自网络分享
	</source>
	<size>#尺寸
		<width>500</width>
		<height>366</height>
		<depth>3</depth>
	</size>
	<segmented>1</segmented>#是否被分割过，1是被分割过，没有就是0
	<object>#目标1
		<name>aeroplane</name>#类别
		<pose>Unspecified</pose>
		<truncated>0</truncated>#目标是否被截断
		<difficult>0</difficult>#目标检测的难易程度，1为难检测，0为容易检测
		<bndbox>#目标的左上角和右下角坐标
			<xmin>9</xmin>
			<ymin>107</ymin>
			<xmax>499</xmax>
			<ymax>263</ymax>
		</bndbox>
	</object>
	<object>#目标2
		<name>aeroplane</name>
		<pose>Left</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>421</xmin>
			<ymin>200</ymin>
			<xmax>482</xmax>
			<ymax>226</ymax>
		</bndbox>
	</object>
	<object>#目标3
		<name>aeroplane</name>
		<pose>Left</pose>
		<truncated>1</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>325</xmin>
			<ymin>188</ymin>
			<xmax>411</xmax>
			<ymax>223</ymax>
		</bndbox>
	</object>
</annotation>

2.ImageSets

此文件夹下又有四个文件夹
在这里插入图片描述
其中Action文件夹中为人的行为动作图像信息，Layout为人的各个部位图像信息，Segmentation为目标分割图像信息，Main文件夹为目标检测分类图像信息，Main文件夹中包括了20个种类的txt格式的信息，每一个种类都有三个，分别是_train,_trainval,_val，部分截图如下。除此之外，还包含了三个总的信息文件train.txt,val.txt,trainval.txt，这里面训练集共有5717张图片，验证集共有5823张图片，共有11540张图片。
在这里插入图片描述
训练集train.txt文件中的每一行都是一个图片的名称，验证集val.txt也同样，并且训练集中的图片和验证集中的是完全不一样的。trainval.txt是将这两部分融合到一起的。