1. 训练,验证,测试样本划分方式,在吴恩达的课程中有介绍到
https://blog.csdn.net/u013555719/article/details/78452053
尤其是验证与测试,需要根据机器学习系统的目的设置,
文中举了猫狗识别系统的例子,目标是识别手机端用户拍摄的猫狗图像,
而训练样本有少量的手机拍摄图(因为系统才开始设计,数据少),大部分是网络中找到的猫狗图像;
而在实际使用的时候,图像数据基本都是实际拍摄的这种,所以线上测试与线下训练样本明显不一致;
为了有一个优良的模型,在训练时,验证集与测试集均有手机实际拍摄的样本构成;
2. 也可以调整训练数据里面样本的分布,使之与线上一致;
3. 或者采用对样本分布不敏感的指标(感觉可以用auc,如有人了解,可以指正);