构建自己的图像分类数据集【两天搞定AI毕设】_哔哩哔哩_bilibili
github代码地址:GitHub - TommyZihao/Train_Custom_Dataset: 标注自己的数据集,训练、评估、测试、部署自己的人工智能算法
图像分类数据集的注意事项
删除无关图片
类型均衡
多样性、代表性、一致性
数据集应尽可能包括目标物体的各类场景,训练出的图像分类模型才能在各类测试场景中具备好的泛化性能,防止过拟合。
不同尺寸、比例的图像
不同拍摄环境(光照、设备、拍摄角度、挡、远近、大小)
不同形态(完整西瓜、切西瓜、切块西瓜)
不同部位(全瓜、瓜皮、瓜、瓜子)
不同时期(瓜秧、小瓜、大瓜)
不同背景(人物、菜地、图)
不同图像域《照片、漫画、剪贴画、油画)
如果训练集的图像分布与测试集(或真实测试场景)的图像分布不一致,会出现OOD(Out-Of-Distribution) 问题
Train_Custom_Dataset/【D】划分训练集测试集.ipynb at main · TommyZihao/Train_Custom_Dataset · GitHub