验证集训练集切分

1.背景

最近刚接了一个电池瑕疵检测的任务。标注完数据开始训练,训练到一半的时候,发现一个问题:现场拍摄的电池照片是先拍摄一张后,在翻转一下再次拍摄。这就需要分测试集、训练集的时候不能使用随机的方式来。因为此原因,学习一下常规的思考思路是怎么样的,避免再次犯同样的错误。

2. 学习材料

[How (and why) to create a good validation set(2017.11.03)][1]

3.内容

验证集、测试集的目的:

  • 验证集valid为了帮助选择模型和超参数。
  • 测试集test为了说明训练的模型的表现效果如何。
  • 他俩都是验证模型在没见过的数据上的泛化能力,不是为了拟合现有数据。

随机选择不能符合数据设定的情况

  • 时序数据,时序数据应该是选择连续时间片段作为切分依据;随机选择时间点数据就不具有代表性。
  • 新内容载体,比如检测驾驶员是否违规打电话,那训练集验证集切分时,不能将同一个人分到两边去,即以人为切分数据集的依据。那验证集可能就选择了拟合这些违规的人更好的模型了。
  • 交叉验证,sklearn切分数据的方法,默认是更方便使用交叉验证,最后选择在整个数据集上平均表现好的作为最后的模型。那当数据集存在不独立分布,具有某种模式的结构化时,就不能这么干了。

参考资料

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值