随机森林(RF)算法
1、算法原理
步骤(booststrap sampling):
1、从数据集中有放回的随机抽m个样本
2、从样本中选取n个特征进行建树
3、重复1-2
2、对数据的要求(无需规范化)
与cart类似 https://blog.csdn.net/weixin_41851055/article/details/106234426
3、算法的优缺点
一、优点:
- 有效解决决策树的过拟合
- 能输出变量重要性
- 容易理解并且效果好
- 具有很好的抗躁能力
二、缺点:
- 小数据集及低维度效果一般
- 速度较单个决策树慢
- 随机生成、结果不稳定(KPI值较大)
4、算法需要注意的点
随机森林不易过拟合的原因
1、两个随机抽样
2、bagging集成算法
随机森林特征重要性原理
1、使用OOB(贷外数据)计算贷外数据误差(errorB1)(一棵树)
2、随机对特征x加入噪声干扰(改变特征x的值等),再次计算贷外数据误差(errorB2)(一棵树)
3、 i m p o r t a n c e = 1 N ∑ i = 1 N ( e r r o r B 2 − e r r o r B 1 ) importance=\frac{1}{N}\sum_{i=1}^N(errorB2-errorB1) importance=N1