数据集label的统计分布

最新推荐文章于 2023-05-10 17:08:13 发布

STU_11wxzou

最新推荐文章于 2023-05-10 17:08:13 发布

阅读量3.2k

点赞数 5

分类专栏：代码工具

本文链接：https://blog.csdn.net/u014479551/article/details/106856638

版权

在训练模型前，了解数据集标注分布至关重要。本文关注于检查是否存在缺失标注的图像，以及类别是否平衡。通过统计【num_anno】、【num_classes】和【num_label】，以XML标注文件为例，揭示了如何获取类别标签分布，并通过可视化手段直观展示标注数量，以优化数据预处理，确保模型训练效果。

摘要由CSDN通过智能技术生成

在训练模型前，需要知道数据集与标注的分布情况。看看有没有标注缺失的图像，做标注补全；类别数量不平衡的话，也要做相应的数据预处理，否则模型训练的效果不好。因此需要统计数据集的标注数量【num_anno】,类别数量【num_classes】，及各个类别标注的分布【num_label】。以xml标注文件为例，获取各类别的标签数据分布。

import  xml.dom.minidom
import os,sys
import matplotlib.pyplot as plt  
 
rootdir = '../mmdetection/data/abn/VOCdevkit/VOC2012/Annotations/'
doc_xml = os.listdir(rootdir) 
print('num_anno', len(doc_xml))
classes_list = []
num_label = {}
for i in range(0,len(doc_xml)):
    path = os.path.join(rootdir,doc_xml[i])
    if os.path.isfile(path):
        #打开xml文档
        dom = xml.dom.minidom.parse(path)
        #得到dom元素的label
        root = dom.documentElement
        label=dom.getElementsByTagName('name')
        for i in range(len(label)):
            c1 = label[i]
            class_name = c1.firstChild.data
            #列表中不存在则存入列表
            if

最低0.47元/天解锁文章

STU_11wxzou

关注

5
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
数据集label的统计分布

在训练模型前，需要知道数据集与标注的分布情况。看看有没有标注缺失的图像，做标注补全；类别数量不平衡的话，也要做相应的数据预处理，否则模型训练的效果不好。因此需要统计数据集的标注数量【num_anno】,类别数量【num_classes】，及各个类别标注的分布【num_label】。以xml标注文件为例，获取各类别的标签数据分布。import xml.dom.minidomimport os,sysimport matplotlib.pyplot as plt rootdir = '../
复制链接

扫一扫

专栏目录