目的
模型在一套训练集和数据集上表现优秀,不能说明问题,只有在众多不同的训练集和测试集上表现都优秀,模型才具有真正的泛化能力。
通过交叉验证,验证模型的泛化能力,帮助我们认识模型。
常用方法之K折交叉验证
分为K折,每次留一份作为验证集,K-1份训练集
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/dd416d15b7d5ddf9deaef368db0df3d5.png)
带交叉验证的学习曲线
对于带交叉验证的学习曲线,不仅要高准确率,而且方差想对要小。
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/e876e2e0edc15cb48ea4eb4fbf5e6953.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/8ec1de8aa0ac7272c9f1ebd389853f1d.png)
其他交叉验证
K折 :按顺序取训练集和测试集
ShuffleSplit 侧重于让测试集数据分布在数据的全方位之内。
StratifiedKFold 训练数据和测试数据必须在每个标签分类中占有相同的比例。
避免折数过大
造成