随机森林原理详解及python代码实现

最新推荐文章于 2024-07-15 15:30:12 发布

ecnu_frc_new

最新推荐文章于 2024-07-15 15:30:12 发布

阅读量2k

点赞数 4

分类专栏：机器学习算法（分类）文章标签：算法决策树 python 机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41851055/article/details/106264153

版权

本文详细介绍了随机森林的算法原理，包括bootstrap抽样和特征选择过程，并探讨了其无需规范化数据的优点、抗过拟合能力和应用注意事项。此外，还提到了随机森林的优缺点，如速度快和抗躁能力好，但也指出其在小数据集和低维度上的局限。最后，文章预告了Python代码实现部分，包括数据预处理、训练和评估。

摘要由CSDN通过智能技术生成

随机森林（RF）算法

1、算法原理
2、对数据的要求（无需规范化）
3、算法的优缺点
4、算法需要注意的点
5、python代码实现(待更......)

1、算法原理

步骤（booststrap sampling）：
1、从数据集中有放回的随机抽m个样本
2、从样本中选取n个特征进行建树
3、重复1-2

2、对数据的要求（无需规范化）

与cart类似 https://blog.csdn.net/weixin_41851055/article/details/106234426

3、算法的优缺点

一、优点：

有效解决决策树的过拟合
能输出变量重要性
容易理解并且效果好
具有很好的抗躁能力

二、缺点：

小数据集及低维度效果一般
速度较单个决策树慢
随机生成、结果不稳定（KPI值较大）

4、算法需要注意的点

随机森林不易过拟合的原因
1、两个随机抽样
2、bagging集成算法

随机森林特征重要性原理
1、使用OOB（贷外数据）计算贷外数据误差（errorB1）（一棵树）
2、随机对特征x加入噪声干扰（改变特征x的值等），再次计算贷外数据误差（errorB2）(一棵树)
3、 $importance=\frac{1}{N}\sum_{i=1}^N(errorB2-errorB1)$

最低0.47元/天解锁文章

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。