Kaggle 快速模型之 Random Forest 随机森林

最新推荐文章于 2024-05-17 10:03:42 发布

moonmilo

最新推荐文章于 2024-05-17 10:03:42 发布

阅读量1.1k

点赞数

文章标签：机器学习随机森林 kaggle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moonmilo/article/details/99511451

版权

本文介绍了随机森林（RF）在Kaggle中的优势，包括其支持回归和分类任务、不易过拟合、良好的泛化能力、对数据分布无严格要求、不需要复杂特征工程以及对数据预处理需求较低。尽管有高维诅咒和无免费午餐理论，但在实际应用中，RF表现出较好的适应性，常用于建立基准模型。

摘要由CSDN通过智能技术生成

随机森林 RF 在 Kaggle 大名远播，称霸很久。

那么，我们这里就先聊聊原因。以下分析来自 University of San Francisco, CS 硕士课程。

随机森林（文中记为 RF）有以下 5 个优点：

1。用法：RF 支持针对连续对象的回归算法，也支持针对离散对象的分类算法。

2。过拟合：RF 不太容易过拟合，因为 RF 本质上是模型集成（model ensemble），从 Leo Breiman 的理论来看 RF 也不会因为树数量的增加，而导致过拟合，因为这些数都是集合在一起的单独模型，效果不好的树会被 downvote。但是使用 out of bagging 的方法是推荐来帮助 RF 减少过拟合的方法，就是保留一个 validation 数据集在多个模型中选取评价指标更好的模型。

3。范化能力：RF 的范化能力也比较好，比较能够处理异常值，不太容易出现波动。

4。数据分布要求：不像线性模型，RF 也不要求数据分布符合正态分布，来得到统计结果上的近似。因此任意的数据分布都可以使用 RF。

5。特征工程：对于一些简单的线性模型，为了增加特征，我们往往需要增加 $x^2，x_{1}^2+x_{2}^2$ 这样的特征来作为模型的输入，帮助模型

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。