sklearn - 分类算法 -随机森林

最新推荐文章于 2022-08-07 23:02:35 发布

置顶

来杯柠檬茶

最新推荐文章于 2022-08-07 23:02:35 发布

阅读量984

点赞数 4

分类专栏： sklearn 机器学习文章标签：随机森林

本文链接：https://blog.csdn.net/tom199611/article/details/99311741

版权

随机森林是一种集成学习方法，通过建立多棵决策树并结合多数投票决定最终预测。每棵树在训练时对样本和特征进行随机抽样，以增加模型多样性。当多数决策树预测结果一致时，形成最终预测。在泰坦尼克号生存预测案例中，最佳参数配置为8层深度和120棵决策树。

摘要由CSDN通过智能技术生成

`随机森林` ：多颗决策树的集成学习方法。

集成学习方法：

建立多个模型来解决一个问题。模型之间独立学习和独立预测。
最后的预测结果按照大多数合并为一个最终预测结果，这个最终的预测结果好于单个模型的预测。

随机森林=随机，多次的创建决策树
创建决策树的过程如下：

有N个样本，M个特征

每次从样本集合里随机选1个样本，重复N次。抽样有放回。（会出现重复抽取到样本）
随机在M个特征里面，选出m个特征（m<<M）

（树之间的样本集合，特征都是不同的）

核心思想：随机有放回的抽样！！bootstrap

如果你训练了150个树, 其中有104个树的结果是True, 46颗树的结果是False, 那么最终结果会是True.

api :

from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier(n_estimators=122,criterion=“gini”,max_depth=22,max_features=“auto”,bootstrapestimators=True)

决策树个数，基尼系数，最大树深度，最大选择特征的数量，是否有放回

案例：网格调优，预测泰坦尼克号生存。

from sklearn.model_selection import GridSearchCV
from    sklearn.feature_extraction import DictVectorizer
import pandas

最低0.47元/天解锁文章

来杯柠檬茶

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
sklearn - 分类算法 -随机森林

随机森林：多颗决策树的集成学习方法。集成学习方法：建立多个模型来解决一个问题。模型之间独立学习和独立预测。最后的预测结果按照大多数合并为一个最终预测结果，这个最终的预测结果好于单个模型的预测。随机森林=随机，多次的创建决策树创建决策树的过程如下：有N个样本，M个特征每次从样本集合里随机选1个样本，重复N次。抽样有放回。（会出现重复抽取到样本）随机在M个特征里面，...
复制链接

扫一扫