当训练集、验证集(开发集)、测试集来源不同,即分布不同时。需要对其进行处理。
如上图所示:测试集数据来源于网上清晰图像,而验证集、测试集数据来源于业余人士手机拍照照片。
假设网上下载的照片数据集大小为200000,而手机拍摄的照片数据集大小为10000。
有两种处理方式:
一种将网上数据和手机数据混合,然后将数据随机分配给训练集、验证集和测试集。这种方式最后应用效果不好,如上图的1图。
另外一种将网上数据作为训练集,并添加部分手机数据作为训练集。剩余手机数据作为验证集和测试集,如上图的2图。从长期来看,这种处理方式能够带来更好的系统性能。