学习笔记(02):第三章:集成机器学习-Bagging和随机森林2

立即学习:https://edu.csdn.net/course/play/10582/236115?utm_source=blogtoedu

训练集上方差大的原因,通常是模型太复杂,泛化能力弱。如决策树,为了提高泛化能力,引入随机森林。

 

Bagging

 

易证明覆盖率在N趋于极限情况为:

1-e^-1 ≈ 0.632

bootstrap样本:N个样本数据,进行N次有放回采样N个数据。

 

重复M次取均值集aggregating

合起来简称bagging 成功将方差变为接近∂^2/M

 

sklearn支持对任意学习器的Bagging

n_estimators :M

max_features:用特征的数量,只用部分,每个模型间相关性更低

bootstrap:bool随机采样时是否放回。

bootstrap_features:随机采样特征是否放回。

oob_score:out of bag score,是否用没有采样到的数据,作验证。

 

学习器建议数量:

分类:√D

回归:D/3     D为dimensions

 

 

Random Forest

由于每次bagging极限情况下的采样数据覆盖为63.2%,多次bagging会有重复,相关性很高,方差不完全满足∂^2/M。

所以有随机森林。

随机选择一部分特征,随机选择一部分样本。多棵树,参数不好解释。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值