来源: 京东
链接: https://products-10k.github.io/
更像是互联网电商的图片,比imagenet的干扰要少一些。
标注格式
name,class,group
1.jpg,0,0
2.jpg,0,0
3.jpg,0,0
4.jpg,0,0
5.jpg,0,0
6.jpg,0,0
7.jpg,0,0
8.jpg,0,0
train例图
特点
- 标注文件train.csv中group有360个类别,但是标注时跳过了359
- classes有9000多,图片有14W多,相当于单个类别平均有15张图片
- 采用group进行分类可能更好,针对有颜色变化的group,就划到另外一个class了。
实践经验
- 数据集很难收敛,采用resnet50,训练了9个epoch,还是无法收敛,有些class只有1,2张图片
- 总体是样本数据集不够