验证集训练集切分

库页

于 2021-06-28 15:35:16 发布

阅读量288

点赞数

分类专栏：深度学习文章标签：数据集

原文链接：https://www.fast.ai/2017/11/13/validation-sets/

版权

61 篇文章 1 订阅

订阅专栏

1.背景

最近刚接了一个电池瑕疵检测的任务。标注完数据开始训练，训练到一半的时候，发现一个问题：现场拍摄的电池照片是先拍摄一张后，在翻转一下再次拍摄。这就需要分测试集、训练集的时候不能使用随机的方式来。因为此原因，学习一下常规的思考思路是怎么样的，避免再次犯同样的错误。

[How (and why) to create a good validation set（2017.11.03）][1]

时序数据，时序数据应该是选择连续时间片段作为切分依据；随机选择时间点数据就不具有代表性。
新内容载体，比如检测驾驶员是否违规打电话，那训练集验证集切分时，不能将同一个人分到两边去，即以人为切分数据集的依据。那验证集可能就选择了拟合这些违规的人更好的模型了。
交叉验证，sklearn切分数据的方法，默认是更方便使用交叉验证，最后选择在整个数据集上平均表现好的作为最后的模型。那当数据集存在不独立分布，具有某种模式的结构化时，就不能这么干了。

关注