重要的insight:
fine tune样本处理原则:译自 https://www.tensorflow.org/hub/tutorials/image_retraining
1,每类别至少100张图片。越多精确度越高。图片需要有代表性,与最终应用场景中模型的输入图片接近。
2,每个类别下的图片需要有代表性,否则训练过程中模型会提取与类别无关的内容,比如一些背景信息。所以最好使用尽可能多的场景下的不同设备所拍摄的图片。
3,其他值得做的:
1)把大类分成小类(视觉上独立的小类),如把交通工具分为:小汽车、卡车等
2)处理背景问题(close world and open world)
3)去除错误标记的样本
其他:
数据集划分:训练80%,验证10%,测试10%
难样本:
逐个查看测试集上分错的样本,找出模型难以分类的图片类型和难以区分的图片类别,比如:某些类别的子类,某些特殊的拍摄角度。增加这些子类对应的训练样本。同时发现输入数据集的问题