随机森林

最新推荐文章于 2024-06-19 14:27:57 发布

qingkong1994

最新推荐文章于 2024-06-19 14:27:57 发布

阅读量293

点赞数

分类专栏：机器学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qingkong1994/article/details/80036826

版权

机器学习方法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

什么是随机森林：是一种集成学习方法，可以用来做分类或者回归。他的基分类器一般是CART决策树，通过BootStrap的方法，又放回的抽取样本，然后训练每个基分类器，最终结合每个及分类器的结果，得到最终的结果

优点：

1. 随机性：一个是属性的随机性，一个是树个数的随机性

2. 并行化：每个基分类器的训练可以并行地完成

3. 能处理很高维的数据

4. 稀疏数据的处理

5. 自动地进行特征选择

缺点：

1. 实际证明当噪声较大时，随机森林会过拟合

2. 构建过程

3. 随机森林关注的是方差的减小

实际应用

sklearn中，RandomForest的 分类器是RandomForestClassifier， 回归器是RandomForestRegressor；

需要调参的参数包括两部分，第一部分是 Bagging框架的参数，第二部分是 CART决策树的参数。

Bagging参数：

1. n_estimators：基分类器的个数，默认为10，一般来说1-200都可，多的话不会差，但是一般情况下RF的基分类器个数较少，基分类器树高较深，所以获得的偏差较小，需要关注的是方差，而GBDT基分类器个数较多，基分类器树高较浅，关注的是偏差

2. bootstrap：是否放回默认True

3. oob_score：是否用袋外样本评估默认False 最好True 交叉验证比较麻烦

4. criterion：分类标准基尼指数信息熵增益等

CART决策树的参数

1. max_features: RF划分时考虑的最大特征数。

2. max_depth: 决策树最大深度。默认为"None"，常用的可以取值10-100之间

3. min_samples_split: 内部节点再划分所需最小样本数，默认2

4. min_samples_leaf:叶子节点最少样本数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
随机森林

什么是随机森林：是一种集成学习方法，可以用来做分类或者回归。他的基分类器一般是CART决策树，通过BootStrap的方法，又放回的抽取样本，然后训练每个基分类器，最终结合每个及分类器的结果，得到最终的结果优点：1. 随机性：一个是属性的随机性，一个是树个数的随机性2. 并行化：每个基分类器的训练可以并行地完成3. 能处理很高维的数据4. 稀疏数据的处理5. 自动地进行特征选择缺点：1. 实际证明...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。