自制VOC2007数据集——train、trainval、val、test文件的生成

最新推荐文章于 2024-04-23 08:53:13 发布

Tansum

最新推荐文章于 2024-04-23 08:53:13 发布

阅读量1.5w

点赞数 19

分类专栏：深度学习 #数据集文章标签： VOC2007 深度学习

本文链接：https://blog.csdn.net/weixin_40161974/article/details/104901928

版权

深度学习同时被 2 个专栏收录

1 篇文章 1 订阅

订阅专栏

#数据集

1 篇文章 0 订阅

订阅专栏

文件用途

VOC2007/ImageSets/Main文件夹里面存放 test.txt train.txt trainval.txt val.txt四个文件。

train.txt 是用来训练的图片文件的文件名列表（训练集）

val.txt是用来验证的图片文件的文件名列表（验证集）

trianval.txt是用来训练和验证的图片文件的文件名列表

test.txt 是用来测试的图片文件的文件名列表（测试集）

train是网络模型在训练的时候用的，而val是网络模型在训练过程中测试用的。val是不影响训练的。在训练的时候可以得到train和val这两个数据集的误差率，利用这个误差率可以绘制出学习曲线，通过观察学习曲线，可以发现一些网络模型的问题，然后再根据这些问题去调整网络参数。test就是网络模型训练完毕测试用的。

生成文件

对于自制VOC2007数据集中所有的图片以及xml文件，需要划分比例，划分为训练集train、测试集test、以及验证集val，按照一定比例划分，我采用的比例为train:val:test=6:2:2 （我看网上有好几种比例，比如说还有8:1:1和2:1:1，小白我不知道哪种比较常用，也不知道这些比例的选择有什么依据，如果有大佬愿意教一下我的话欢迎留言）

生成上面四个文件的代码如下：

import os
import random

trainval_percent = 0.8
train_percent = 0.75
xmlfilepath = 'Annotations'
txtsavepath = 'ImageSets\Main'
total_xml = os.listdir(xmlfilepath)

num = len(total_xml)
list = range(num)
tv = int(num * trainval_percent)
tr = int(tv * train_percent)
trainval = random.sample(list, tv)
train = random.sample(trainval, tr)

ftrainval = open('ImageSets/Main/trainval.txt', 'w')
ftest = open('ImageSets/Main/test.txt', 'w')
ftrain = open('ImageSets/Main/train.txt', 'w')
fval = open('ImageSets/Main/val.txt', 'w')

for i in list:
    name = total_xml[i][:-4] + '\n'
    if i in trainval:
        ftrainval.write(name)
        if i in train:
            ftrain.write(name)
        else:
            fval.write(name)
    else:
        ftest.write(name)

ftrainval.close()
ftrain.close()
fval.close()
ftest.close()

Tansum

关注

19
点赞
踩
123

收藏

觉得还不错? 一键收藏
7
评论
自制VOC2007数据集——train、trainval、val、test文件的生成

文件用途VOC2007/ImageSets/Main文件夹里面存放test.txt train.txttrainval.txtval.txt四个文件。train.txt 是用来训练的图片文件的文件名列表（训练集）val.txt是用来验证的图片文件的文件名列表（验证集）trianval.txt是用来训练和验证的图片文件的文件名列表test.txt 是用来测试的图片文...
复制链接

扫一扫