Scikit-learn随机森林算法库总结与调参实践

最新推荐文章于 2023-05-27 14:59:15 发布

天才厨师1号

最新推荐文章于 2023-05-27 14:59:15 发布

阅读量3.8k

点赞数 10

分类专栏：机器学习文章标签： randomforest参数随机森林Python实践 Python 随机森林 python 机器学习

本文链接：https://blog.csdn.net/weixin_40449129/article/details/103006822

版权

上篇我们对随机森林的算法原理进行了探讨，以及算法的优缺点进行了总结。我们知道随机森林是在bagging框架下，组合多颗随机特征生成的CART树形成随机森林，是一种非常强大的算法。本篇我们就来探讨Scikit-learn中随机森林库类的使用。按照以往的套路，我们先对随机森林库进行概述，再对常用参数进行解读，最后我们使用kaggle上面的一个数据对随机森林的调参进行全面的演示。

1）随机森林库类概述

随机森林算法即可以做分类，又可以做回归。在Scikit learn中，随机森林分类对应是RandomForestClassifer库类，回归则是对应RandomForestRegressor库类。两者的具体参数如下：

sklearn.ensemble.RandomForestClassifier(n_estimators=100, criterion=‘gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=‘auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None)[source]

sklearn.ensemble.RandomForestRegressor(n_estimators=100, criterion=‘mse’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=‘auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, ccp_alpha=0.0, max_samples=None)[[source]]
可以看出，RandomForestClassifier和RandomForestRegressor绝大多数参数都相同，不同之处在于，RandomForestClassifier多了一个类别不平衡的参数：class_weight。

不管是RandomForestClassifier还是RandomForestRegressor，其参数都可以分为两部分，第一部分是随机森林框架参数，如n_estimators，oob_score；第二部分是CART树参数，如max_depth，criterion等。下面我们就分部分来进行介绍。

2）随机森林框架参数

n_estimators，树的数量，默认100（0.22版本改成了100）；
该参数主要用于降低整体模型的方差。当n_estimators增大模型方差降低，整体模型的准确度会有所提升，直到增加到一定的值，不再发生显著变化。实际应用中，不一定需要选择最优的n_estimators（n_estimators越大，时间成本越高），可以根据自己电脑的运算能力，选择适中的值，然后把算力放到调整其他超参数上。
oob_score，是否采用Out of Bag评估方式，默认False；
oob_score是我们在随机森林原理中提到的Out of Bag评估方式。Out of Bag可以反应了模型的泛化能力，oob_score=True等同于使用交叉验证评估模型。实际应用中，设置成True。袋外数据评估得分通过oob_score_属性查看。
bootstrap，是否采用有放回的采样方式，默认True；
bootstrap，有放回采样，可以增加训练集的多样性，实际应用中，保持默认设置。
max_samples，训练树的最大样本量，默认为None;
当boostrap=True时，该参数才起作用，表示从训练集中抽取多少样本去训练子模型。新版本0.22新增参数。

3）CART树参数

剩下的参数则是CART树的参数，和我们之前探讨的决策树参数含义基本一样，下面我们看下常用的一些参数，其他的参数可以参考Scikit-learn决策树算法库总结与简单实践。

criterion，不确定性的计算方式；
分类树和回归树的损失函数不一样，不确定性的计算方式也不一样。RandomForestClassifier默认Gini，也可以输入entropy。RandomForestRegressor默认为均方差mse，也可以输入绝对值差mae。在绝大多数情况下，两者没有显著差别，实际应用中，优先考虑保持默认设置。
max_features，训练树的最大特征数，默认为auto；
该参数用来限制树过拟合的剪枝参数。max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。适当的减少输入模型的特征可以增加基学习器的多样性，当然也可能会存在模型欠拟合的风险。默认为auto时，表示选择的特征数为 $\sqrt {features}$ 。实际应用中，可以在默认auto的基础上增大该参数，验证模型是否欠拟合。
max_depth，树的最大深度，默认为None；
该参数用来限制树过拟合的剪枝参数，超过指定深度的树枝全部被剪掉。当默认为None时，树将自由生长直到达到停止条件。树越深，模型的偏差越低，方差越高。
min_samples_split，内部节点分裂的最小样本数，默认为2；
该参数用来限制树过拟合的剪枝参数。如果叶节点样本数目小于该参数的值，叶节点将会被剪枝。min_samples_split越大，被剪枝的越多，树越简单，模型偏差越高，方差越低。
min_samples_leaf，叶节点的最小样本数，默认为1；
该参数用来限制树过拟合的剪枝参数。如果叶节点样本数目小于该参数的值，叶节点将会被剪枝。min_samples_leaf越大，被剪枝的越多，树越简单，模型偏差越高，方差越低。
max_leaf_nodes，最大叶节点数，默认为None；
该参数用来限制树过拟合的剪枝参数。默认是None，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。max_leaf_nodes越大，树越复杂，模型偏差越低，方差越高。

4）随机森林算法库使用经验总结

使用grid_search和交叉验证选择最优的超参数。
通常，随机森林参数的调整顺序为：n_estimators，max_features，max_depth，min_samples_split，min_samples_leaf。
max_features可以粗粒度地调整树的结构，搜索空间可以大一些；min_samples_split，min_samples_leaf可以更细粒度地调整树的结构，搜索空间可以更细一些。
使用随机森林的feature_importances_查看特征重要性。

5）调参实践

下面我们使用kaggle比赛的Give Me Some Credit数据，使用网格搜索的方式演示随机森林的调参过程，同时更直观的理解各超参数对模型的偏差和方差的影响。
代码和数据已上传到我的GitHub，大家可以去下载，自己跑一遍。下面我们对数据进行简单的处理，演示随机森林的调参过程。
首先导入所需要的Python包

import pandas as pd
import numpy as np

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn import metrics

import matplotlib.pyplot as plt
import matplotlib as mpl

import warnings
warnings.filterwarnings("ignore")

读入数据，查看数据的基本信息。

#读取数据
path = r'.\cs-training.csv'
data = pd.read_csv(path)
data.head()

在这里插入图片描述

data.shape

在这里插入图片描述

#数据集基本信息
data.info()

在这里插入图片描述
查看目标变量的分布，以及缺失值情况。

#样本不平衡
data['SeriousDlqin2yrs'].value_counts()

在这里插入图片描述

#缺失值所占比例
data.isnull().sum()/data.shape[0]

在这里插入图片描述
正负样本极其不平衡，我们使用class_weight =‘balanced’增加正样本的权重。
缺失值比例不高，使用均值和中位数对缺失值进行填充。

#使用均值和中位数进行缺失值填充
data['MonthlyIncome'].fillna

最低0.47元/天解锁文章

天才厨师1号

关注

10
点赞
踩
47

收藏

觉得还不错? 一键收藏
2
评论
Scikit-learn随机森林算法库总结与调参实践

        上篇我们对随机森林的算法原理进行了探讨，以及算法的优缺点进行了总结。我们知道随机森林是在bagging框架下，组合多颗随机特征生成的CART树，是一种非常强大的算法。本篇我们就来探讨Scikit-learn中随机森林库类的使用。按照以往的套路，我们先对随机森林库里进行概述，再对常用参数进行解读，最后进行一个简单的实践。  &nbs...
复制链接

扫一扫

专栏目录