一、项目地址:
https://github.com/ultralytics/yolov5https://github.com/ultralytics/yolov5
数据集完全可以沿用VOCDevkit格式数据集
二、VOCDevkit格式数据
|--VOC2007
|---Annotations
|---ImageSets
|----Layout
|----Main
|---test.txt
|---train.txt
|---trainval.txt
|---val.txt
|----Segmentation
|---JPEGImages
|---labels
然后这个数据集的配置里面有点坑:
【1】 在项目根目录创建一个文件夹,叫啥都行,例如VOCData
【2】 将上面的ImagesSets、JPEGImages、labels这几个文件夹先复制过来,现在就有了分割子集、图片、yolo格式标注数据
【3】用这个小脚本实现上面需要的东西(需要你有图像+xml原始标注文件+分类名字就行了)
三、数据集划分工具链
第一个:
file name: 1_take_label.py
import os
import random
trainval_percent = 1
train_percent = 0.9
xmlfilepath = 'Annotations这个文件夹的路径'
txtsavepath = '/ImageSets/Main这个文件夹的路径'
# 意思是从标记文件统计你的文件名字,然后划分到main里面去
total_xml = os.listdir(xmlfilepath)
num=len(total_xml)
list=range(num)
tv=int(num*trainval_percent)
tr=int(tv*train_percent)
trainval= random.sample(list,tv)
train=random.sample(trainval,tr)
ftrainval = open(txtsavepath+'/trainval.txt', 'w')
ftest = open(txtsavepath+'/test.txt', 'w')
ftrain = open(txtsavepath+'/train.txt', 'w')
fval = open(txtsavepath+'/val.txt', 'w')
for i in list:
name=total_xml[i][:-4]+'\n'
if i in trainval:
ftrainval.write(name)
if i in train:
ftrain.write(name)
else:
fval.write(name)
else:
ftest.write(name)
ftrainval.close()
ftrain.close()
fval.close()
ftest.close()