sklearn randomForest 调参方法

最新推荐文章于 2024-01-09 09:03:30 发布

taiguangxing

最新推荐文章于 2024-01-09 09:03:30 发布

阅读量3k

点赞数

文章标签：机器学随机森调

本文链接：https://blog.csdn.net/weixin_39709476/article/details/79526802

版权

什么是随机森林（ randomForest）？

森林，顾名思义，是由很多棵树组成。这里的树是指我们机器学习中的决策树。随机森林的判定准则是根据我们已有的数据集和标间，随机构造多棵决策树，最后的决策结果由每一棵树投票产生。

随机 , 随机性体现在两个方面。首先是构建每一棵数的数据集是由我们的原有数据集通过有放回采样得到。此称数据集的随机性。此外，在构建决策树的时候，选择决策结点属性的时候，也加入了随机因素。我们随机的在所有的N个特征中选择M（M<<N）个属性，从M个属性中选择最好的一个属性当做划分节点。通过这样的随机因素，构建出的决策树组合起来能够取得更好的效果。

接下来我们来学习随机森林是如何使用的。

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.metrics import confusion_matrix #混淆矩阵
X, y = make_classification(n_samples=1000, n_features=4,
                           n_informative=2, n_redundant=0,
                            random_state=0, shuffle=False)
clf = RandomForestClassifier()
clf.fit(X, y)

print(clf.feature_importances_)
pre=clf.predict(X)
print(confusion_matrix(y,pre))

随机森林的参数有：

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)

接下来我们介绍哪些参数会对分类结果影响比较大。

主要有3个可以调整的参数来提高模型的预测能力：
1. max_features ：这一项是 Random Forest允许在单个树中尝试的最大特征数。

最低0.47元/天解锁文章

taiguangxing

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
sklearn randomForest 调参方法

什么是随机森林（ randomForest）？森林，顾名思义，是由很多棵树组成。这里的树是指我们机器学习中的决策树。随机森林的判定准则是根据我们已有的数据集和标间，随机构造多棵决策树，最后的决策结果由每一棵树投票产生。随机 , 随机性体现在两个方面。首先是构建每一棵数的数据集是由我们的原有数据集通过有放回采样得到。此称数据集的随机性。此外，在构建决策树的时候，选择决策结点属性的时候，也加入了随机...
复制链接

扫一扫