scikit-learn中的随机森林模型

和决策树模型类似,scikit-learn中的随机森林模型也提供了基于普通Decision Tree的Random Forest学习器和基于随机化Extra Tree的ExtraTrees学习器。
在这里插入图片描述
鉴于Decision Tree和Extra Tree差别甚小,本文以Random Forest为例进行介绍。

1. 模型的主要参数

在Random Forest中,存在两大类型的参数,分别为框架参数单棵决策树参数

其中,单棵决策树参数参照先前介绍的决策树模型,而框架参数包括:

模型参数Parameter含义RandomForestClassifierRandomForestRegressor
n_estimators子树数量随机森林中决策树的数量,其值越大模型的表现越优秀,但计算量也越大
bootstrap有无放回采样默认为True,即采用有放回式采样,从而可以不划分验证集,用这些袋外数据进行验证(见参数oob_score)。而在Extratrees中该值默认为False,即选取全量样本进行训练。
oob_score袋外评分即是否采用袋外数据进行模型的验证评估,默认为True。
2. 模型的主要方法

随机森林模型中涉及到众多子决策树的综合评估,所以其无法像普通Decision Tree模型一样提供apply方法API。

模型方法含义备注
fit模型训练支持Decison Tree中的sample_weight参数
predict预测结果返回综合各子决策树结果后的分类值或者回归值,分类值为比重最高的分类,回归值为叶子节点均值的平均值
predict_proba分类预测概率值仅在classifier中有该方法,返回各分类的概率值
predict_log_proba分类预测对数值仅在classifier中有该方法,返回各分类的对数概率值
3. 模型的主要属性
模型属性含义备注
estimators_估计器列表返回由n_estimators个子决策树构成的列表
classes_样本分类结果适用于classifer的单分类结果,返回各样本的分类预测值
n_classes_ 样本分类结果适用于classifer的多分类结果,返回各样本的多分类预测值
feature_importances_特征权重基于gini数得到各特征的特征重要性
oob_score_含义袋外数据的总的评估结果
oob_decision_function_含义每个袋外数据的评估结果
注意,相较于单棵决策树的feature_importances_,随机森林模型中的feature_importances_是对各子决策树结果的平均。
4. 模型的可视化

不同于单棵决策树可以进行有效的可视化,随机森林模型由于子学习器众多,因此无法进行有效的可视化。即使可以对其中的每棵决策树进行单独的可视化,但考虑到随机性的影响,意义并不大。

5. 模型的调参

(1)调整n_estimators参数
(2)按照决策树模型的调参顺序进行调整,详见决策树模型

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值