xml转voc数据集(含分享数据集)

数据集的链接:行人检测数据集voc数据集(100张)

原始图片和.xml数据目录结构如下:

. 
└── data
    ├── 003002_0.jpg
    ├── 003002_0.xml
    ├── 003002_1.jpg
    ├── 003002_1.xml
    ├── 003008_1.jpg
    ├── 003008_1.xml
    └── .......
└── xml2voc2007.py
  • data目录下就是你的数据集原始图片,加上标注的.xml文件。
  • xml2voc2007.py源码放到这篇文章的最后边。

在labelme2coco.py文件的目录下,打开命令行执行:

python xml2voc2007.py --input_dir data --output_dir VOCdevkit
  • --input_dir:指定data文件夹,默认输入为xml2voc2007.py同级目录下的data文件夹。
  • --output_dir:指定你的输出文件夹,默认输出为xml2voc2007.py同级目录下的VOCdevkit文件夹(没有的话就会创建)。

执行结果如下图:

结果图片

生成的voc数据集目录结构如下:

.
└── VOCdevkit
    └── VOC2007
        ├── Annotations
        │   ├── 003002_0.xml
        │   ├── 003002_1.xml
        │   ├── 003008_1.xml
        │   └── .......
        ├── ImageSets
        │   └── Main
        │       ├── test.txt
        │       ├── train.txt
        │       ├── trainval.txt
        │       └── val.txt
        └── JPEGImages
            ├── 003002_0.jpg
            ├── 003002_1.jpg
            ├── 003008_1.jpg
            └──.......

如果想调整训练集验证集的比例,可以在labelme2coco.py源码中搜索 percent_trainval (训练集和验证集在总数中的占比),percent_train,(训练集在percent_trainval中的占比)

xml2voc2007.py源码:

# 命令行执行:  python xml2voc2007.py --input_dir data --output_dir VOCdevkit

import argparse
import glob
import os
import random
import os.path as osp
import sys
import shutil

# 主程序执行
def main():
    parser = argparse.ArgumentParser(
        formatter_class=argparse.ArgumentDefaultsHelpFormatter
    )
    parser.add_argument("--input_dir",default="data", help="input annotated directory")
    parser.add_argument("--output_dir",default="VOCdevkit", help="output dataset directory")
    args = parser.parse_args()

    if osp.exists(args.output_dir):
        print("Output directory already exists:", args.output_dir)
        sys.exit(1)
    os.makedirs(args.output_dir)
    print("| Creating dataset dir:", osp.join(args.output_dir, "VOC2007"))

    # 创建保存的文件夹
    if not os.path.exists(osp.join(args.output_dir, "VOC2007","Annotations")):
        os.makedirs(osp.join(args.output_dir, "VOC2007", "Annotations"))
    if not os.path.exists(osp.join(args.output_dir, "VOC2007", "ImageSets")):
        os.makedirs(osp.join(args.output_dir, "VOC2007", "ImageSets"))
    if not os.path.exists(osp.join(args.output_dir, "VOC2007", "ImageSets", "Main")):
        os.makedirs(osp.join(args.output_dir, "VOC2007", "ImageSets", "Main"))
    if not os.path.exists(osp.join(args.output_dir, "VOC2007", "JPEGImages")):
        os.makedirs(osp.join(args.output_dir, "VOC2007", "JPEGImages"))

    # 获取目录下所有的.jpg文件列表
    total_img = glob.glob(osp.join(args.input_dir, "*.jpg"))
    print('| Image number: ', len(total_img))

    # 获取目录下所有的joson文件列表
    total_xml = glob.glob(osp.join(args.input_dir, "*.xml"))
    print('| Xml number: ', len(total_xml))


    percent_trainval = 0.8
    percent_train = 0.75
    num_total = len(total_xml)
    data_list = range(num_total)

    num_tv = int(num_total*percent_trainval)
    num_tr = int(num_tv*percent_train)
    num_trainval = random.sample(data_list, num_tv)
    num_train = random.sample(num_trainval, num_tr)
    
    print('| Train number: ', num_tr)
    print('| Val number: ', num_tv-num_tr)
    print('| Test number: ', num_total-num_tv)

    file_trainval = open(
        osp.join(args.output_dir, "VOC2007", "ImageSets", "Main", "trainval.txt"), 'w')
    file_test = open(
        osp.join(args.output_dir, "VOC2007", "ImageSets", "Main", "test.txt"), 'w')
    file_train = open(
        osp.join(args.output_dir, "VOC2007", "ImageSets", "Main", "train.txt"), 'w')
    file_val = open(
        osp.join(args.output_dir, "VOC2007", "ImageSets", "Main", "val.txt"), 'w')

    for i in data_list:
        name = total_xml[i][:-4]+'\n'
        if i in num_trainval:
            file_trainval.write(name[5:])
            if i in num_train:
                file_train.write(name[5:])
            else:
                file_val.write(name[5:])
        else:
            file_test.write(name[5:])

    file_trainval.close()
    file_train.close()
    file_val.close()
    file_test .close()

    if os.path.exists(args.input_dir):  
        # root 所指的是当前正在遍历的这个文件夹的本身的地址  
        # dirs 是一个 list,内容是该文件夹中所有的目录的名字(不包括子目录)  
        # files 同样是 list, 内容是该文件夹中所有的文件(不包括子目录)  
        for root,dirs,files in os.walk(args.input_dir):  
            for file in files:  
                src_file = osp.join(root, file)  
                if src_file.endswith(".jpg"):
                    shutil.copy(src_file, osp.join(args.output_dir, "VOC2007","JPEGImages"))  
                else:
                    shutil.copy(src_file, osp.join(args.output_dir, "VOC2007","Annotations")) 

    print('| Done!')  

if __name__ == "__main__":
    print("—"*50)
    main()
    print("—"*50)
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
将txt文件换为VOC数据集xml格式,需要进行以下步骤: 1. 创建VOC数据集xml文件模板。 2. 读取txt文件中的标注信息,包括类别、位置信息等。 3. 将读取到的信息填充到xml文件模板中。 4. 将生成的xml文件保存到指定的目录中。 以下是一个简单的Python代码实现: ```python import os import xml.etree.cElementTree as ET def txt_to_xml(txt_file_path, xml_file_path, image_size, class_list): # 创建xml文件模板 root = ET.Element("annotation") ET.SubElement(root, "folder").text = os.path.dirname(txt_file_path) ET.SubElement(root, "filename").text = os.path.basename(txt_file_path).replace('.txt', '.jpg') size = ET.SubElement(root, "size") ET.SubElement(size, "width").text = str(image_size[0]) ET.SubElement(size, "height").text = str(image_size[1]) ET.SubElement(size, "depth").text = str(image_size[2]) for cls in class_list: ET.SubElement(root, "object") # 读取txt文件中的标注信息 with open(txt_file_path, 'r') as f: lines = f.readlines() for line in lines: line = line.strip().split() cls = line[0] xmin, ymin, xmax, ymax = line[1:] # 将标注信息填充到xml文件模板中 obj = ET.SubElement(root, "object") ET.SubElement(obj, "name").text = cls bndbox = ET.SubElement(obj, "bndbox") ET.SubElement(bndbox, "xmin").text = xmin ET.SubElement(bndbox, "ymin").text = ymin ET.SubElement(bndbox, "xmax").text = xmax ET.SubElement(bndbox, "ymax").text = ymax # 保存生成的xml文件 tree = ET.ElementTree(root) tree.write(xml_file_path) # 示例代码 txt_file_path = 'path/to/annotation.txt' xml_file_path = 'path/to/annotation.xml' image_size = (640, 480, 3) class_list = ['person', 'car', 'bike'] txt_to_xml(txt_file_path, xml_file_path, image_size, class_list) ``` 注意:以上代码仅是一个简单的示例,具体实现需要根据自己的数据集格式和要求进行修改。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

gy-7

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值