sklearn randomForest 调参方法

什么是随机森林( randomForest)?
森林,顾名思义,是由很多棵树组成。这里的树是指我们机器学习中的决策树。随机森林的判定准则是根据我们已有的数据集和标间,随机构造多棵决策树,最后的决策结果由每一棵树投票产生。

随机 , 随机性体现在两个方面。首先是构建每一棵数的数据集是由我们的原有数据集 通过有放回采样得到。此称数据集的随机性。此外,在构建决策树的时候,选择决策结点属性的时候,也加入了随机因素。我们随机的在所有的N个特征中选择M(M<<N)个属性,从M个属性中选择最好的一个属性当做划分节点。通过这样的随机因素,构建出的决策树组合起来能够取得更好的效果。
接下来我们来学习随机森林是如何使用的。
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.metrics import confusion_matrix #混淆矩阵
X, y = make_classification(n_samples=1000, n_features=4,
                           n_informative=2, n_redundant=0,
                            random_state=0, shuffle=False)
clf = RandomForestClassifier()
clf.fit(X, y)

print(clf.feature_importances_)
pre=clf.predict(X)
print(confusion_matrix(y,pre))

随机森林的参数有:
RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)
接下来我们介绍哪些参数会对分类结果影响比较大。

主要有3个可以调整的参数来提高模型的预测能力:
1.  max_features 这一项是 Random Forest允许在单个树中尝试的最大特征数。
   
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值