随机森林（Random Forest)

最新推荐文章于 2023-09-01 20:58:39 发布

翔燕

最新推荐文章于 2023-09-01 20:58:39 发布

阅读量6.9k

点赞数 4

文章标签：随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36217665/article/details/100652459

版权

随机森林是一种基于决策树的集成学习方法，适用于回归和分类问题。通过构建多棵树进行预测，利用bagging方法抽样并计算平均值或投票得出结果。随机森林的关键超参数包括树的数量（n_estimators）、处理器使用数（n_jobs）和是否使用袋外得分（oob_score）。其优点包括处理高维特征、减少过拟合风险和评估特征重要性，但可能在小数据集和低维数据上表现不佳。在Python的Scikit-learn库中，RandomForestClassifier和RandomForestRegressor提供了随机森林的实现。

摘要由CSDN通过智能技术生成

1. 什么是随机森林？

定义：随机森林是指利用多棵决策树对样本数据进行训练、分类并预测的一种方法，它在对数据进行分类的同时，还可以给出各个变量（基因）的重要性评分，评估各个变量在分类中所起的作用。

2.应用

随机森林主要是应用于回归和分类这两种场景，又侧重于分类
对于分类问题，按多棵树分类器投票决定最终分类结果
而对于回归问题，则由多棵树预测值的均值决定最终预测结果

3. 随机森林的构建

首先利用bootstrap方法从原始训练集中随机抽取n个样本，并构建n个决策树；
然后假设在训练样本数据中有m个特征，那么每次分裂时选择最好的特征进行分裂每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类；
接着让每颗决策树在不做任何修剪的前提下最大限度的生长；
最后将生成的多棵分类树组成随机森林，用随机森林分类器对新的数据进行分类与回归。

4.随机森林的超参数

1）n_estimators（树的数量）

它表示建立的树的数量。
一般来说，树的数量越多，性能越好，预测也越稳定，但这也会减慢计算速度。
一般来说在实践中选择数百棵树是比较好的选择，因此，一般默认是100。

2）n_jobs（引擎允许使用处理器的

最低0.47元/天解锁文章

关注

4
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。