sklearn chapter2

随机森林

是一个集成算法,以决策树为基分类器或者回归模型,采用n棵决策树进行训练集成。
参数
n_estimator最重要的参数,基分类器的数量。
criterion 不纯度的衡量指标 分别为基尼指数和信息熵 gini 和 entropy
max_depth 树的最大深度 超过最大深度会被剪枝
min_samples_leaf一个节点在分支后至少包含min_samples_leaf个训练样本,否则不会分支,也就是分支后的节点要有min_samples_leaf个节点才会存在 默认值为1
min_samples_split一个节点要有min_samples_split个节点才能继续分支
max_features限制分支时考虑的特征个数,超过特征个数的特征会被舍弃(一般少用)
min_impurity_decrease限制不纯度的大小,不纯度小于设定数值的分支不会发生


随机森林的集成算法boostrap
oob_score_
袋外数据占总数据集的1/e
可以作为测试集进行验证 模型超参数oob_score = True
查看袋外数据测试的分数
rf.oob_score_


重要属性和接口

.estimators_
返回所有基分类器的集合

.oob_estimators
采用袋外数据的测试集进行测试的分数

.feature_importances
返回各个特征的重要程度


接口

apply
返回各个叶子节点的索引

fit
predict
score 的分数为R^2
三个接口

R^2 = 1 - u/v

u 是残差平方和
v是全平方和


偏差:模型的预测值与真实值之间的差异,即每一个红点到蓝线的距离。在集成算法中,每个基评估器都会有
自己的偏差,集成评估器的偏差是所有基评估器偏差的均值。模型越精确,偏差越低。

方差:反映的是模型每一次输出结果与模型预测值的平均水平之间的误差,即每一个红点到红色虚线的距离,
衡量模型的稳定性。模型越稳定,方差越低。
在这里插入图片描述
总结
无论如何线调参n_estimators

调参可以用学习曲线或者网络搜索

最后可以尝试 criterion和max_features

Bagging和Boosting的比较
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值