随机森林原理详解及python代码实现

本文详细介绍了随机森林的算法原理,包括bootstrap抽样和特征选择过程,并探讨了其无需规范化数据的优点、抗过拟合能力和应用注意事项。此外,还提到了随机森林的优缺点,如速度快和抗躁能力好,但也指出其在小数据集和低维度上的局限。最后,文章预告了Python代码实现部分,包括数据预处理、训练和评估。
摘要由CSDN通过智能技术生成

1、算法原理

步骤(booststrap sampling):
1、从数据集中有放回的随机抽m个样本
2、从样本中选取n个特征进行建树
3、重复1-2

2、对数据的要求(无需规范化)

与cart类似 https://blog.csdn.net/weixin_41851055/article/details/106234426

3、算法的优缺点

一、优点:

  • 有效解决决策树的过拟合
  • 能输出变量重要性
  • 容易理解并且效果好
  • 具有很好的抗躁能力

二、缺点:

  • 小数据集及低维度效果一般
  • 速度较单个决策树慢
  • 随机生成、结果不稳定(KPI值较大)

4、算法需要注意的点

随机森林不易过拟合的原因
1、两个随机抽样
2、bagging集成算法

随机森林特征重要性原理
1、使用OOB(贷外数据)计算贷外数据误差(errorB1)(一棵树)
2、随机对特征x加入噪声干扰(改变特征x的值等),再次计算贷外数据误差(errorB2)(一棵树)
3、 i m p o r t a n c e = 1 N ∑ i = 1 N ( e r r o r B 2 − e r r o r B 1 ) importance=\frac{1}{N}\sum_{i=1}^N(errorB2-errorB1) importance=N1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值