数据集未打乱
自己制作的数据集每个类别都相互在一起,数据集并未打乱,这会导致网络在学习过程中产生一定的偏见问题,降低了数据集的丰富度。而且在训练时使用shuffle只是打乱每个轮次训练数据的顺序,并没有彻底改变数据集的顺序问题。
因此使用此方法可以彻底打乱数据集,并且保证:
- xml文件名与images图像名之间的对应关系
- xml文件中<filename>属性与xml文件名之间的对应关系
只需修改输入路径和输出路径,代码如下:
import numpy as np
import cv2
import os
import random
import xml.etree.ElementTree as ET
#原始图片路径和xml文件路径
image_root = 'E:/VOCdevkit/newXML/JPEGImages/'
xml_root='E:/VOCdevkit/newXML/Annotations/'
image_list = os.listdir(image_root)
xml_list=os.listdir(xml_root)
#打乱后的输出图片路径和xml文件路径
image_output = 'E:/VOCdevkit/newXML/111/'
xml_output='E:/VOCdevkit/newXML/222/'
index = [i for i in range(len(image_list))]
print(len(image_list))
print(len(xml_list))
random.shuffle(index)
a=np.array(index)
num=1
for i in a:
img_name=image_list[i]