# 常用的开源数据集通常都是一些比赛的提供的数据集,旨在为研究者提供素材的数据集
# 数据集可用于分类 目标检测 语义分割 等任务
1.voc数据集(2005~2012)
voc 数据集常用的版本有2007和2012的版本的,因为,这两种版本的数据集的数据量较大。
voc 数据集分为 训练集 验证集 测试集
训练集标注,验证集标注
参赛者通过 训练集 验证集 训练集标注,验证集标注训练模型 然后测试测试集,测试的结果与标准结果比较,进而获得排名,可在leadboard(排行榜)上查看排名
voc数据集官网:http://host.robots.ox.ac.uk/pascal/VOC/
2. voc dataset 的下载
01 通过官网 镜像网站 然后复制下载链接 用迅雷下载
02 在pytorch 中的 torchvision的包中用命令下载
3. voc dataset 解压后的目录结构
Annotations : 标注 xml文件 不可用于直接训练
JPEGImages: 图片
ImageSet:图片集,ImageSets目录下有三个子文件夹 文件夹内存放了用于训练的txt文档的标注。
Main 用于目标检测 或者 图像识别
Layout 用于语义分割
Segementation用于语义分割
![标注的布局:每一个类别,对应一个txt文件](https://img-blog.csdnimg.cn/6cd95f2a9fbb43cfbb8a3a71f90c156c.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAcXFfNDI3MzEzOTM=,size_19,color_FFFFFF,t_70,g_se,x_16#pic_center)
![正样本与负样本](https://img-blog.csdnimg.cn/d46ac2b0774a4bf096fedbf992ac8471.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAcXFfNDI3MzEzOTM=,size_9,color_FFFFFF,t_70,g_se,x_16#pic_center)
main 文件夹内存放目标检则或者分类的标注
按照每个类别建立一个txt文件,txt文件
txt文件内 对每张图片进行编号 如果有这个类别 则填1,否则填0
xxx_train.txt
xxx_val.txt
xxx_trainval.txt
这三个文件表示要用xxx~xxx用于训练的图片的范围不用太过于关注
xml文件记录了图片中包含物体的种类以及位置坐标信息,用左上和右下坐标来确定一个边界框(boundbox)
目标检测常见的开源数据集
最新推荐文章于 2024-05-06 21:40:02 发布