Python实现打乱VOC数据集，批量修改xml与图像间对应关系

最新推荐文章于 2023-04-25 10:01:19 发布

要反击

最新推荐文章于 2023-04-25 10:01:19 发布

阅读量310

点赞数 2

分类专栏： xml voc数据集 python 文章标签： xml python 计算机视觉目标检测深度学习

本文链接：https://blog.csdn.net/m0_51483783/article/details/128180235

版权

由于原始数据集类别集中，可能导致深度学习模型训练时出现偏见。通过Python脚本，可以完全打乱数据集并保持XML文件与图像名的对应一致性，同时修正XML文件中<filename>字段的错误。参考了CSDN上@大聪明的博客进行代码调整。

摘要由CSDN通过智能技术生成

数据集未打乱

自己制作的数据集每个类别都相互在一起，数据集并未打乱，这会导致网络在学习过程中产生一定的偏见问题，降低了数据集的丰富度。而且在训练时使用shuffle只是打乱每个轮次训练数据的顺序，并没有彻底改变数据集的顺序问题。

因此使用此方法可以彻底打乱数据集，并且保证：

xml文件名与images图像名之间的对应关系
xml文件中<filename>属性与xml文件名之间的对应关系

只需修改输入路径和输出路径，代码如下：

import numpy as np
import cv2
import os
import random
import xml.etree.ElementTree as ET
#原始图片路径和xml文件路径
image_root = 'E:/VOCdevkit/newXML/JPEGImages/'
xml_root='E:/VOCdevkit/newXML/Annotations/'
image_list = os.listdir(image_root)
xml_list=os.listdir(xml_root)
#打乱后的输出图片路径和xml文件路径
image_output = 'E:/VOCdevkit/newXML/111/'
xml_output='E:/VOCdevkit/newXML/222/'
index = [i for i in range(len(image_list))]
print(len(image_list))
print(len(xml_list))
random.shuffle(index)
a=np.array(index)

num=1
for i in a:
    img_name=image_list[i]