Python 统计数据集标签的类别及数目

看了大神统计voc数据集标签框后,针对自己标注数据集,灵活应用 ,感谢

import re
import os
import xml.etree.ElementTree as ET
class1 = 'answer'
class2 = 'hand'
class3 = 'write'
class4 = 'music'
class5 = 'phone'
'''class6 = 'bus'
class7 = 'car'
class8 = 'cat'
class9 = 'chair'
class10 = 'cow'
class11 = 'diningtable'
class12 = 'dog'
class13 = 'horse'
class14 = 'motorbike'
class15 = 'person'
class16 = 'pottedplant'
class17 = 'sheep'
class18 = 'sofa'
class19 = 'train'
class20 = 'tvmonitor'
'''
annotation_folder = '/home/.../train/'		#改为自己标签文件夹的路径
#annotation_folder = '/home/.../VOC2007/Annotations/'
list = os.listdir(annotation_folder)


def file_name(file_dir):
	L = []
	for root, dirs, files in os.walk(file_dir):
		for file in files:
			if os.path.splitext(file)[1] == '.xml':
				L.append(os.path.join(root, file))
	return L


total_number1 = 0
total_number2 = 0
total_number3 = 0
total_number4 = 0
total_number5 = 0
'''total_number6 = 0
total_number7 = 0
total_number8 = 0
total_number9 = 0
total_number10 = 0
total_number11 = 0
total_number12 = 0
total_number13 = 0
total_number14 = 0
total_
  • 7
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
Python中给数据集标签通常涉及到机器学习数据处理技术。以下是一种常见的方法: 1. 加载数据集:使用适当的Python库(如pandas)加载数据集到DataFrame中。 ```python import pandas as pd # 加载数据集 data = pd.read_csv('dataset.csv') ``` 2. 数据预处理:对数据集进行必要的预处理,例如清洗、去除缺失值或异常值等。 ```python # 数据预处理 # 清洗数据 data = data.dropna() # 去除异常值 data = data[(data['column'] > lower_limit) & (data['column'] < upper_limit)] ``` 3. 特征工程:根据数据集的特点,提取相关特征。可以使用统计方法、文本处理技术或其他特征提取技术。 ```python # 特征工程 # 示例:提取文本特征 from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer() features = vectorizer.fit_transform(data['text_column']) ``` 4. 标签编码:将目标变量转换为机器学习算法可以处理的数字编码形式。 ```python # 标签编码 # 示例:将分类变量转换为数值编码 from sklearn.preprocessing import LabelEncoder label_encoder = LabelEncoder() data['label'] = label_encoder.fit_transform(data['label_column']) ``` 5. 模型训练和预测:使用机器学习算法训练模型,并使用模型对新数据进行预测。 ```python # 模型训练和预测 # 示例:使用决策树分类器训练模型并预测 from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(features, data['label'], test_size=0.2, random_state=42) # 训练模型 model = DecisionTreeClassifier() model.fit(X_train, y_train) # 预测新数据 new_data = vectorizer.transform(new_data) predictions = model.predict(new_data) ``` 以上是一个基本的流程,具体的步骤和技术选择取决于数据集和问题的要求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值