问题建模之交叉验证

最新推荐文章于 2022-04-21 23:25:15 发布

jingshuiliushen_zj

最新推荐文章于 2022-04-21 23:25:15 发布

阅读量1k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jingshuiliushen_zj/article/details/83018014

版权

本文介绍了交叉验证在模型评估中的重要性，详细讲解了留出法和K折交叉验证的原理与应用场景。留出法简单但易受数据划分影响，而K折交叉验证虽然复杂，但数据利用更高效。留一法适用于数据稀疏情况，而分层K折则用于处理类别不平衡问题。

摘要由CSDN通过智能技术生成

在离线环节，需要对模型进行评估，根据评估指标选择最佳模型。这就需要交叉验证。
下面介绍几种常用的交叉验证方法。

一、留出法

留出法非常简单，就是将数据集划分为训练集合测试集，它甚至不能看做是一种交叉验证，因为它并没有交叉的操作。
这种方法的缺点是：
1、划分测试集数据量对结论有影响。测试集数据量小，模型可信度不高；训练集数据量小，模型效果可能不够好。通常的做法是，2 /3 数据作为训练集，1 /3 数据作为测试集。
2、划分哪些样本作为测试集可能会导致数据分布发生变化，进而影响实验结论。

针对上述缺点，我们会进行多次留出法实验，每次随机划分，最终将多次得到的实验结论进行平均。

另外实际工作中有一种普遍的应用场景广泛使用留出法：数据有明显的时间序列因素，即线上数据的时间都在离线数据集之后，这种情况下应该根据时间对离线数据集划分训练集和测试集，使测试集时间分布在训练集时间之后。
比如，在2017 年6 月初需要训练模型，可以采用2017 年1 月到2017 年4月的数据作为训练集，2017年5月的数据作为测试集。

二、K 折交叉验证

K折交叉验证就是将数据集D 划分成K份互斥数据集，一般是平均分配使每份数据量接近并且数据分布尽可能一致。每次用一份数据测试，其余K-1份数据训练，需要迭代K轮得到K个模型；最后再将K份测试结果汇总到一起评估一个离线指标。

K折交叉验证的稳定性与K取值有很大关系。K值太小实验稳定性依然偏低，K值太大又可能导致实验成本高，K最常用的取值是5和10 。

相比留出法，K折交叉验证更为复杂

最低0.47元/天解锁文章

jingshuiliushen_zj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
问题建模之交叉验证

在离线环节，需要对模型进行评估，根据评估指标选择最佳模型。这就需要交叉验证。下面介绍几种常用的交叉验证方法。一、留出法留出法非常简单，就是将数据集划分为训练集合测试集，它甚至不能看做是一种交叉验证，因为它并没有交叉的操作。这种方法的缺点是：1、划分测试集数据量对结论有影响。测试集数据量小，模型可信度不高；训练集数据量小，模型效果可能不够好。通常的做法是，2 /3 数据作为训练集，1 /3...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。