随机森林

什么是随机森林:是一种集成学习方法,可以用来做分类或者回归。他的基分类器一般是CART决策树,通过BootStrap的方法,又放回的抽取样本,然后训练每个基分类器,最终结合每个及分类器的结果,得到最终的结果
优点:
1. 随机性:一个是属性的随机性,一个是树个数的随机性
2. 并行化:每个基分类器的训练可以并行地完成
3. 能处理很高维的数据
4. 稀疏数据的处理
5. 自动地进行特征选择
缺点:
1. 实际证明当噪声较大时,随机森林会过拟合
2. 构建过程
3. 随机森林关注的是方差的减小

实际应用
sklearn中,RandomForest的 分类器是RandomForestClassifier, 回归器是RandomForestRegressor;
需要调参的 参数包括两部分,第一部分是 Bagging框架的参数,第二部分是 CART决策树的参数
Bagging参数:
1. n_estimators:基分类器的个数,默认为10,一般来说1-200都可,多的话不会差,但是一般情况下RF的基分类器个数较少,基分类器树高较深,所以获得的偏差较小,需要关注的是方差,而GBDT基分类器个数较多,基分类器树高较浅,关注的是偏差
2. bootstrap:是否放回 默认True
3. oob_score:是否用袋外样本评估  默认False  最好True  交叉验证比较麻烦
4. criterion:分类标准  基尼指数 信息熵增益等

CART决策树的参数
1. max_features: RF划分时考虑的最大特征数。
2. max_depth: 决策树最大深度。默认为"None",常用的可以取值10-100之间
3. min_samples_split: 内部节点再划分所需最小样本数,默认2
4. min_samples_leaf:叶子节点最少样本数
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值