引言
上篇工具包,主要是
特征工程:清洗数据
【工具包】目标检测label-image剔错去重等清洗工具包
所以这次主题是
特征理解:我的数据集里有什么
不少刚入门小伙伴去参加kaggle比赛,拿着V100的集群外加大模型一顿操作猛如虎,但是分却上不去,甚至还不如某某大神分享出来的baseline?为什么?
因为不管是目标检测也好其他有监督的机器学习(深度学习)也好,只要是用有监督的label来引导学习模型参数,那么这一步都是通用而且重要的。只有做好了训练集的特征工程分析,label分析统计,打好基础后再考虑模型backbone、损失函数等才有意义。
实战篇
2.1 具体类别分析统计
在这里插入代码片
import os
import xml.etree.ElementTree as ET
import numpy as np