集成学习(二)

1.bagging与决策树结合的模型随机森林(RF)

2.随机森林的随机指的是样本boostrap采样,特征随机抽取

3.每次迭代中,约36.8%的数据不参与建模,该数据称为包外数据(OOB)

4.利用OOB数据做模型评估与交叉验证思想一致,称为包外误差

5.随机森林输出特征的重要度依靠不纯度减少程度来评估(MDI)

6.MDI有两个缺陷:对连续型变量敏感;只反映在训练集的特征预测重要度

7.排列重要度解决了上述两个缺陷,但多重共线性下排列重要度不起作用

8.对特征进行聚类、降维、相关性剔除再做排列重要度特征选择

本篇我们继集成学习(一)深入讨论bagging思想的一个典型应用:随机森林

随机森林,英文是Random Forest ,简称RF,顾名思义,就是多颗决策树共同决策。它与bagging思想结合,不难想象,如果是回归问题,就是取多颗决策树的预测的均值(平均法),如果的分类问题,就是取多颗决策树的众数(投票法)。我们分三部分介绍随机森林:boostrap抽样、随机森林算法细节、特征重要度

正式介绍之前,我们先回顾bagging思想的要点:

  • bagging是通过boostrap采样并行式训练方法,基学习器的权重一样

  • bagging整体模型的偏差与基学习器近似

  • 随着评估器数量的增加可以降低bagging模型方差,故基学习器需要为强模型

boostrap抽样

bagging全名是boostrap aggregating,boostrap是指对数据集进行boostarp采样,该思想在文章

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

整得咔咔响

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值