sklearn 随机森林

1概述
1.1集成算法概述
随机森林、GBDT(梯度提升树)、Xgboost等集成算法随处可见,应用广、效果好。
集成算法的目标:考虑多个评估器的建模结果,来获取比单个模型更好的回归或分类
三类集成算法:Bagging(装袋法)、Boosting(提升法)、stacking
Bagging(装袋法):随机森林
Boosting(提升法:Adaboost、梯度提升树
1.2sklearn中集成算法的包:
ensemble.RandomForestClassifier 随机森林分类
ensemble.RandomForestRegressor 随机森林回归
衡量分枝质量指标不纯度:分类树的不纯度是基尼系数、信息熵
回归树的不纯度:均方误差MSE
用不纯度最低的来分枝
2 RandomForestClassfier
sklearn.ensemble.RandomForestClassifier (n_estimators=’10’, criterion=’gini’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’)
2.1.1
装袋法依赖于平均值或少数服从多数的原则来决定集成结果的,所以单棵树准确率越高,随机森林准确率越高
随机森林无法可视化的。
n_estimators=’10’ 树木的数量,在0.22版本中是100
max_features=’auto’:考虑的特征数量,默认总特征的开平方取整
2.2重要属性和接口
三个重要属性:
.estimators_,.oob_score_,以及.feature_importances_
.estimators_是用来查看随机森林中所有树的列表
oob_score_指的是袋外得分,本质还是模型的精确度
.feature_importances_特征重要性
四个结接口:
apply, fit, predict和score
rfc.feature_importances_
rfc.apply(Xtest)
rfc.predict(Xtest)
rfc.predict_proba(Xtest)
3机器学习中调参的基本思想
学习曲线调n_estimators 大型数据直接上50、100
网格搜索:max_depth 20~50

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值