【菜菜的sklearn机器学习】（4）随机森林

우 유

于 2024-09-27 15:01:29 发布

阅读量401

点赞数 4

分类专栏： MLDL 文章标签： python sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_40759442/article/details/142593692

版权

MLDL 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

具体的在Jupyter 里

课程学习：2 1. 集成算法概述_trim_哔哩哔哩_bilibili

课程4-随机森林

1、集成算法

随机森林是一种集成算法。集成学习ensemble learning 不是一个单独的ML算法，而是通过在数据集上构成多个模型，集成所有模型的建模结果。随机森林、梯度提升数GBDT、Xgboost等集成算法应用较广。

目标：集成算法会考虑多个评估器的建模结果，汇总之后得到一个综合的结果，以此来获取比单个模型更好的回归或分类表现。

三类集成算法：袋装法bagging、提升法boosting和stacking

Singel单个模型；

bagging里面模型独立：装袋法的核心思想是构建多个相互独立的评估器，然后对其预测进行平均或多数表决原则来决定集成评估器的果。装袋法的代表模型就是随机森林。

boosting里面模型相关：提升法中，基评估器是相关的，是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的进行预测，从而构成一个强评估器。提升法的代表模型有Adaboost和梯度提升树。

复习：sklearn中的决策树

决策树的主要功能是从一张有特征和标签的表格中，通过对特定特征进行提问，为我们总结出一系列的决策规则，并用树状图来呈现这些决策规则。

核心问题：

1如何找出正确的特征来进行提问，即分支节点-如何分支；

计算全部特征的不纯度指标=>选取不纯度指标最优的特征来分支=>第一个特征的分枝下，再计算all......

2树生长到什么时候应该停下

决策树追求不纯度小

2、RandomForestClassifier

参数：criterion、max_depth、min_samples_leaf、min_samples_split、max_features、min_impurity_decrease

(1)n_estimators越大效果越好

决策树也有决策边界，精确性不会再上升

Sklearn中的基本建模流程：

# 实例化

# 训练集带入实例化后的模型去进行训练，使用的接口是fit

# 使用其他接口讲测试集导入我妹训练好的模型，去获取我们希望获取的结果（score,Y_test）

sklearn中所有特征和标签是分开导入的

Score反应模型精确性(accuracy)

随机森林的效果是远远好于决策树的

(2)random_state

随机森林的本质是一种装袋集成算法Bagging

集成算法中多棵树的效果好于单科树

随机森林中的random_state生成一片固定的森林而非一棵树，生成的是固定模式，中间的每

(3)bootstrap&oob_score，默认true代表采用这种有放回的随机抽样技术，通常不会被设置为false

可能存在的问题：有些样本可能在同一个自助集中出现多次，而其他一些却可能被忽略

(4)重要属性和接口

.estimators_查看森林中所有树的样子

.oob_score_训练得分

接口用于调用输入数据集之后的结果，也可以用于训练apply、fit、predict、score

标签有几个分类，就会返回几个概率

(5)[选]Bonus：Badding的另一个必要条件

3、RandomForestRegressor

随机森林回归：通常使用mse

回归树的接口score返回的是R平方（1到负无穷），并不是MSE

交叉验证 cross_val_score(regressor, 完整原始数据，完整标签，交叉验证次数)

随机森林案例

用于填补缺失值

x_missing_mean.isnull() # 报错，因为x_missing_mean是一个Numpy结构的array,而isnull()只能在表dataframe中使用

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。