sklearn 随机森林

最新推荐文章于 2024-07-24 08:56:25 发布

xfx小飞侠

最新推荐文章于 2024-07-24 08:56:25 发布

阅读量310

点赞数

本文链接：https://blog.csdn.net/weixin_42392461/article/details/84528116

版权

1概述
1.1集成算法概述
随机森林、GBDT(梯度提升树）、Xgboost等集成算法随处可见，应用广、效果好。
集成算法的目标：考虑多个评估器的建模结果，来获取比单个模型更好的回归或分类
三类集成算法：Bagging（装袋法）、Boosting（提升法）、stacking
Bagging（装袋法）：随机森林
Boosting（提升法：Adaboost、梯度提升树
1.2sklearn中集成算法的包：
ensemble.RandomForestClassifier 随机森林分类
ensemble.RandomForestRegressor 随机森林回归
衡量分枝质量指标不纯度：分类树的不纯度是基尼系数、信息熵
回归树的不纯度：均方误差MSE
用不纯度最低的来分枝
2 RandomForestClassfier
sklearn.ensemble.RandomForestClassifier (n_estimators=’10’, criterion=’gini’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’)
2.1.1
装袋法依赖于平均值或少数服从多数的原则来决定集成结果的，所以单棵树准确率越高，随机森林准确率越高
随机森林无法可视化的。
n_estimators=’10’ 树木的数量，在0.22版本中是100
max_features=’auto’:考虑的特征数量，默认总特征的开平方取整
2.2重要属性和接口
三个重要属性：
.estimators_,.oob_score_,以及.feature_importances_
.estimators_是用来查看随机森林中所有树的列表
oob_score_指的是袋外得分，本质还是模型的精确度
.feature_importances_特征重要性
四个结接口：
apply, fit, predict和score
rfc.feature_importances_
rfc.apply(Xtest)
rfc.predict(Xtest)
rfc.predict_proba(Xtest)
3机器学习中调参的基本思想
学习曲线调n_estimators 大型数据直接上50、100
网格搜索：max_depth 20~50