VOC数据集自检 xml文件

自己制作数据集时,很有可能出现标签错误,不小心弄错等问题。
1.检测数据集中的错误样本:

import os
import xml.etree.ElementTree as ET
import numpy as np

# np.set_printoptions(suppress=True, threshold=np.nan)
import matplotlib
from PIL import Image


def parse_obj(xml_path, filename):
    tree = ET.parse(xml_path + filename)
    objects = []
    for obj in tree.findall('object'):
        obj_struct = {}
        obj_struct['name'] = obj.find('name').text
        bbox = obj.find('bndbox')
        obj_struct['bbox'] = [int(bbox.find('xmin').text),
                              int(bbox.find('ymin').text),
                              int(bbox.find('xmax').text),
                              int(bbox.find('ymax').text)]
        objects.append(obj_struct)
    return objects


def read_image(image_path, filename):
    im = Image.open(image_path + filename)
    W = im.size[0]
    H = im.size[1]
    area = W * H
    im_info = [W, H, area]
    return im_info


if __name__ == '__main__':
    image_path = r'D:\\yanjiu\\modify\\VOC2007\\JPEGImages\\'
    xml_path = 'D:/yanjiu/modify/VOC2007/Annotations/'
    filenamess = os.listdir(xml_path)
    filenames = []
    for name in filenamess:
        name = name.replace('.xml', '')
        filenames.append(name)
    recs = {}
    ims_info = {}
    obs_shape = {}
    classnames = []
    num_objs = {}
    obj_avg = {}
    for i, name in enumerate(filenames):
        recs[name] = parse_obj(xml_path, name + '.xml')
        ims_info[name] = read_image(image_path, name + '.jpg')
    for name in filenames:
        im_w = ims_info[name][0]
        im_h = ims_info[name][1]
        im_area = ims_info[name][2]
        for object in recs[name]:
            if object['name'] not in num_objs.keys():
                num_objs[object['name']] = 1
            else:
                num_objs[object['name']] += 1
            ob_w = object['bbox'][2] - object['bbox'][0]
            ob_h = object['bbox'][3] - object['bbox'][1]
            ob_area = ob_w * ob_h
            if object['bbox'][3] > im_h:
                print("这个标签有问题:{}".format(name))
                print("这个目标有问题:{}".format(object['name']))
            if object['bbox'][2] > im_w:
                print("这个标签有问题:{}".format(name))
                print("这个目标有问题:{}".format(object['name']))
            if object['bbox'][1] > im_h:
                print("这个标签有问题:{}".format(name))
                print("这个目标有问题:{}".format(object['name']))
            if object['bbox'][0] > im_w:
                print("这个标签有问题:{}".format(name))
                print("这个目标有问题:{}".format(object['name']))
            ob_h = object['bbox'][3] - object['bbox'][1]
            ob_area = ob_w * ob_h
            w_rate = ob_w / im_w
            h_rate = ob_h / im_h
            area_rate = ob_area / im_area
            if not object['name'] in obs_shape.keys():
                obs_shape[object['name']] = ([[ob_w,
                                               ob_h,
                                               ob_area,
                                               w_rate,
                                               h_rate,
                                               area_rate]])
            else:
                obs_shape[object['name']].append([ob_w,
                                                  ob_h,
                                                  ob_area,
                                                  w_rate,
                                                  h_rate,
                                                  area_rate])
        if object['name'] not in classnames:
            classnames.append(object['name'])

2.检测样本的类别并输出所有的标签类别。

import xml.dom.minidom as xmldom
import os

#voc数据集获取所有标签的所有类别数"
annotation_path=r"D:\new\RFBNet-master\data\VOCdevkit\VOC2007\Annotations"

annotation_names=[os.path.join(annotation_path,i) for i in os.listdir(annotation_path)]

labels = list()
for names in annotation_names:
    xmlfilepath = names
    domobj = xmldom.parse(xmlfilepath)
    # 得到元素对象
    elementobj = domobj.documentElement
    #获得子标签
    subElementObj = elementobj.getElementsByTagName("object")
    for s in subElementObj:
        label=s.getElementsByTagName("name")[0].firstChild.data
        #print(label)
        if label not in labels:
            labels.append(label)
print(labels)

VOC数据集是一种常见的目标检测数据集,而COCO数据集是一种更全面的用于目标检测、分割和关键点检测的数据集。如果你需要将VOC数据集转换为COCO数据集的格式,可以使用一些工具和代码来完成这个过程。 引用中提到了一种方法,可以使用Python代码将VOC数据集的XML格式转换为COCO数据集的JSON格式。首先,需要将一个整个的JSON文件拆分成单个的文件,因为通常COCO数据集是将所有标签整合到一个文件中的。你可以按照这个方法中的步骤进行操作。 引用中提供了一个代码示例,可以将VOC格式的数据集转换为.txt格式。这个代码可以帮助你进行转换,只需注意将要转换的VOC格式数据集VOC数据集的路径对应即可。 引用提供了一个完整的教程和转换程序代码,可以制作COCO和VOC格式的实例分割数据集。你可以下载并按照教程进行操作,无需额外调整,从而完成转换过程。 综上所述,你可以使用这些工具和代码来转换VOC数据集为COCO数据集的格式,从而适应不同的需求。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [将COCO数据集json格式文件转为VOC数据集xml格式](https://blog.csdn.net/xjx19991226/article/details/123386207)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [voc数据标注.xml文件转coco数据标注.txt](https://download.csdn.net/download/qq_47233366/85996084)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [coco、voc实例分割数据集制作-labelme](https://download.csdn.net/download/weixin_42715977/85981276)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值