《大数据机器学习实践探索》 ---- 使用spark MLlib进行机器学习（3.2 超参数调优：交叉验证）

最新推荐文章于 2024-08-13 01:29:34 发布

shiter

最新推荐文章于 2024-08-13 01:29:34 发布

阅读量380

点赞数

分类专栏：大数据机器学习实践探索基于大数据的机器学习原理与最佳实践文章标签： spark 交叉验证超参调优

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyaninglm/article/details/118756526

版权

大数据机器学习实践探索同时被 2 个专栏收录

130 篇文章 124 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

基于大数据的机器学习原理与最佳实践

81 篇文章 140 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

文章大纲

k-Fold交叉验证
- 交叉验证原理
- 在Spark中执行超参数搜索
spark pipeline 优化
参考文献

k-Fold交叉验证

我们应该使用哪个数据集来确定最优超参数值？如果我们使用训练集，那么模型很可能会过度拟合，或者记住我们训练数据的细微差别。这意味着它不太可能推广到看不见的数据。但是，如果我们使用测试集，那么这将不再代表“看不见的”数据，因此我们将无法使用它来验证我们的模型泛化的程度。因此，我们需要另一个数据集来帮助我们确定最优的超参数：验证数据集。

交叉验证原理

例如，像我们做的那样，将我们的数据分割成 80/20 训练集/测试集拆分，我们可以分别执行60/20/20拆分以生成训练、验证和测试数据集。然后，我们可以在训练集上训练我们的模型，在验证集上评估性能以选择最佳的超参数配置，并将模型应用于测试集，看看它在新数据上的表现如何。然而，这种方法的缺点之一是我们失去了25%的训练数据（80%->60%），这可以用来帮助改进模型。这促我们使用k-折叠交叉验证技术来解决这个问题。

使用这种方法，我们不像以前那样将数据集分割成单独的培训、验证和测试集，而是将其分割成训练和测试集。

而是我们使用训练数据进行训练和验证。为了实现这一点&#

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。