随机森林分类、回归算法原理及调参实战

最新推荐文章于 2024-06-27 00:24:54 发布

12466434

最新推荐文章于 2024-06-27 00:24:54 发布

阅读量1.7w

点赞数 18

分类专栏：数据挖掘算法实战文章标签：数据挖掘机器学习

本文链接：https://blog.csdn.net/qq_43628993/article/details/105679244

版权

数据挖掘算法实战专栏收录该内容

3 篇文章 0 订阅

订阅专栏

集成算法 ensemble

通过在数据集上构建多个模型，集成所有模型的建模结果，得到一个综合的结果，以此来获得比单个
模型更好的分类或回归表现

装袋法bagging：
    构建多个相互独立的基评估器（base estimator）,然后对其预测进行平均或多数表决原则来决定
    集成评估器的结果。装袋法的代表模型就是随机森林
提升法boosting:
    基评估器是相关的，是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的样本
    进行预测，从而构成一个强评估器。提升法的代表模型有Adaboost和梯度提升树GBDT。

装袋法和提升法对比

	装袋法bagging	提升法boosting
评估器	相互独立，同时运行	相互关联，按顺序依次构建，后建模型会在先建模型的预测失败的样本上有更多权重
抽样数集	有放回随机抽样	有放回抽样，但每次抽样时，会给预测失败的样本更多的权重
决定集成的结果	平均或多数表决	加权平均，训练集上表现更好的模型会得到更多的权重
目标	降低方差，提高模型整体稳定性	降低偏差，提高模型整体精确度
单个评估器过拟合问题	能一定程度上避免过拟合	可能会加剧过拟合
单个评估器的效力比较弱时	不是非常有帮助	可能会提升模型表现
代表算法	RF	GBDT和adabooost

随机森林参数

控制基评估器参数：
    与决策树类似
n_estimators：
    决策树的数量，越大，模型的效果往往越好。但是相应的，任何模型都有决策边界，n_estimators达到
    一定的程度之后，随机森林的精确性往往不再上升或开始波动

%matplotlib inline
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_wine

wine = load_wine()

决策树与随机深林的对比

from sklearn.model_selection import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
 
clf = DecisionTreeClassifier(random_state=0)
rfc = RandomForestClassifier(random_state=0)
clf = clf.fit(Xtrain,Ytrain)
rfc = rfc.fit(Xtrain,Ytrain)
score_c = clf.score(Xtest,Ytest)
score_r = rfc.score(Xtest,Ytest)
 
print("Single Tree:{}".format(score_c)
      ,"Random Forest:{}".format(score_r)
     )

Single Tree:0.9444444444444444 Random Forest:1.0

#交叉验证情况下

from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
 
rfc = RandomForestClassifier(n_estimators=25)
rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10)
 
clf = DecisionTreeClassifier()
clf_s = cross_val_score(clf,wine.data,wine.target,cv=10)
 
plt.plot(range(1,11),rfc_s,label = "RandomForest")
plt.plot(range(1,11),clf_s,label = "Decision Tree")
plt.legend()
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传在这里插入图片描述 (img-X1SsirVY-1587530490929)(output_12_0.png)]

# 多次交叉验证

rfc_l = []
clf_l = []
 
for i in range(10):
    rfc = RandomForestClassifier(n_estimators=25)
    rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
    rfc_l.append(rfc_s)
    clf = DecisionTreeClassifier()
    clf_s = cross_val_score(clf,wine.data,wine.target,cv=10).mean()
    clf_l.append(clf_s)
    
plt.plot(range(1,11),rfc_l,label = "Random Forest")
plt.plot(range(1,11),clf_l,label = "Decision Tree")
plt.legend()
plt.show()
 
#是否有注意到，单个决策树的波动轨迹和随机森林一致？
#再次验证了我们之前提到的，单个决策树的准确率越高，随机森林的准确率也会越高

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rGA 在这里插入图片描述 G65xY-1587530490936)(output_14_0.png)]

n_estimator 参数曲线

#####【TIME WARNING: 2mins 30 seconds】#####
superpa = []
for i in range(200):
    rfc = RandomForestClassifier(n_estimators=i+1,n_jobs=-1)
    rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
    superpa.append(rfc_s)
print(max(superpa),superpa.index(max(superpa))+1)#打印出：最高精确度取值，max(superpa))+1指的是森林数目的数量n_estimators
plt.figure(figsize=[20,5])
plt.plot(range(1,201),superpa)
plt.show()

0.9888888888888889 32

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img- 在这里插入图片描述 5ATU1OOh-1587530490942)(output_16_1.png)]

随机森林为什么准确率高？

随机森林的本质是一种装袋集成算法（bagging），装袋集成算法是对基评估器的预测结果进行平均
或用多数表决原则来决定集成评估器的结果。

在刚才的红酒例子中，我们建立了25棵树，对任何一个样本而言，平均或多数表决原则下，当且仅当
有13棵以上的树判断错误的时候，随机森林才会判断错误。单独一棵决策树对红酒数据集的分类准确
率在0.85上下浮动，假设一棵树判断错误的可能性为0.2，那13棵树以上都判断错误的可能性是

import numpy as np
from scipy.special import comb
 
np.array([comb(25,i)*(0.2**i)*((1-0.2)**(25-i)) for i in range(13,26)]).sum()

0.00036904803455582827



可以看到：远小于一棵树的错误率。同时也注意到，如果随机森林中每棵树都是一样的话，
那么一棵树判断错误，则整个森林就判读错误，也就和决策树没有区别。

所以随机森林的基分类器是相互独立的，互不相同的

怎样生成不同的树 ------双重随机性

参数：random_state 控制森林生成的模式

rfc = RandomForestClassifier(n_estimators=20,random_state=2)
rfc = rfc.fit(Xtrain, Ytrain)

#重要属性：estimators_ 存储所有树信息的列表
#查看所有树的random_state
for i in range(len(rfc.estimators_)):
    print(rfc.estimators_[i].random_state)

2056096140
1078729000
602442957
1514174439
1458549053
904046564
1214918618
655921571
139775012
293793817
864952371
2116213231
963777025
861270369
1156416813
2032972974
583060530
1909517413
1341241096
2058549495
533227000
1803803348
2056406370
1190856758
132094869


当random_state固定时，随机森林中生成是一组固定的树，但每棵树依然是不一致的，这是用
”随机挑选特征进行分枝“的方法得到的随机性。并且我们可以证明，当这种随机性越大的时
候，袋装法的效果一般会越来越好。

但这种做法的局限性是很强的，当我们需要成千上万棵树的时候，数据不一定能够提供成千上
万的特征来让我们构筑尽量多尽量不同的树

参数：bootstrap &oob_score 有放回的随机抽样

要让基分类器尽量都不一样，一种很容易理解的方法是使用不同的训练集来进行训练，而袋装
法正是通过有放回的随机抽样技术来形成不同的训练数据。

参数bootstrap默认为True，即默认使用有放回的随机抽样

有放回随机抽样：
    在一个含有n个样本的原始训练集中，我们进行随机采样，每次采样一个样本，并在抽取下
    一个样本之前将该样本放回原始训练集，也就是说下次采样时这个样本依然可能被采集到，
    这样采集n次，最终得到一个和原始训练集一样大的，n个样本组成的自助集

然而,由于是有放回，一些样本可能在同一个自助集中出现多次，而其他一些却可能被忽略，
因为每一个样本被抽到某个自助集中的概率为：

$1-(1-\frac{1}{n})^n$ $\displaystyle\lim_{n\to\infty}(1-(1-\frac{1}{n})^n)=(1-\frac{1}{e})=0.632$

一般来说，一个自助集大约平均会包含63%的原始数据。会有约37%的训练数据被浪费掉，没有
参与建模，这些数据被称为袋外数据(out of bag data，简写为oob)。除了我们最开始就划分好
的测试集之外，这些数据也可以被用来作为集成算法的测试集

也就是说，在使用随机森林时，我们可以不划分测试集和训练集，只需要用袋外数据来测试我们
的模型即可

rfc = RandomForestClassifier(n_estimators=25,oob_score=True) #默认为False
rfc = rfc.fit(wine.data,wine.target)

#重要属性 oob_score_ 使用袋外数据的模型评分
rfc.oob_score_

0.9719101123595506



 当然，这也不是绝对的，当n和n_estimators都不够大的时候，很可能就没有数据掉落在袋外
 ，自然也就无法使用oob数据来测试模型了

5个重要接口

fit:
    训练模型，输入训练集特征和标签

score:
    返回分类准确率，可以是测试集也可以使训练集。注意，指标是不能修改的，如果想使用其他
    衡量指标，则不用score，使用交叉验证。

    apply:
        返回每个样本所在叶子节点索引,可以是测试集也可以使训练集

    predict:
        返回每个样本的分类结果,可以是测试集也可以使训练集

    predict_proba:
        返回每个样本的分类到某一类的概率,可以是测试集也可以使训练集

rfc = RandomForestClassifier(n_estimators=25,random_state=20)
rfc = rfc.fit(Xtrain, Ytrain)
rfc.score(Xtest,Ytest)

rfc.apply(Xtest)

array([[10, 16, 16, ...,  8,  4,  6],
       [26, 18, 20, ..., 20, 14, 20],
       [10, 16, 16, ...,  8,  4,  2],
       ...,
       [26, 22, 20, ..., 20, 14, 15],
       [15,  4,  4, ..., 10, 11, 14],
       [19, 16, 16, ..., 19,  7,  2]], dtype=int64)

rfc.predict(Xtest)

array([2, 0, 2, 1, 0, 1, 0, 1, 0, 0, 2, 0, 1, 1, 0, 1, 0, 0, 1, 1, 2, 1,
       0, 0, 0, 1, 0, 1, 2, 0, 0, 2, 0, 0, 1, 1, 2, 0, 1, 2, 2, 1, 2, 2,
       2, 1, 0, 1, 1, 0, 0, 0, 1, 2])

rfc.predict_proba(Xtest)

array([[0.  , 0.  , 1.  ],
       [1.  , 0.  , 0.  ],
       [0.  , 0.  , 1.  ],
       [0.  , 1.  , 0.  ],
       [0.84, 0.16, 0.  ],
       [0.  , 0.96, 0.04],
       [0.88, 0.12, 0.  ],
       [0.12, 0.88, 0.  ],
       [0.96, 0.04, 0.  ],
       [1.  , 0.  , 0.  ],
       [0.04, 0.08, 0.88],
       [1.  , 0.  , 0.  ],
       [0.  , 1.  , 0.  ],
       [0.  , 1.  , 0.  ],
       [0.96, 0.04, 0.  ],
       [0.12, 0.76, 0.12],
       [0.96, 0.04, 0.  ],
       [0.96, 0.04, 0.  ],
       [0.  , 1.  , 0.  ],
       [0.  , 1.  , 0.  ],
       [0.  , 0.  , 1.  ],
       [0.  , 1.  , 0.  ],
       [0.96, 0.04, 0.  ],
       [1.  , 0.  , 0.  ],
       [1.  , 0.  , 0.  ],
       [0.  , 1.  , 0.  ],
       [1.  , 0.  , 0.  ],
       [0.  , 0.88, 0.12],
       [0.  , 0.04, 0.96],
       [1.  , 0.  , 0.  ],
       [1.  , 0.  , 0.  ],
       [0.  , 0.  , 1.  ],
       [1.  , 0.  , 0.  ],
       [0.88, 0.12, 0.  ],
       [0.  , 1.  , 0.  ],
       [0.08, 0.84, 0.08],
       [0.  , 0.04, 0.96],
       [0.96, 0.04, 0.  ],
       [0.  , 1.  , 0.  ],
       [0.  , 0.08, 0.92],
       [0.  , 0.  , 1.  ],
       [0.  , 1.  , 0.  ],
       [0.04, 0.  , 0.96],
       [0.  , 0.08, 0.92],
       [0.  , 0.08, 0.92],
       [0.08, 0.92, 0.  ],
       [0.8 , 0.2 , 0.  ],
       [0.08, 0.92, 0.  ],
       [0.  , 1.  , 0.  ],
       [1.  , 0.  , 0.  ],
       [0.96, 0.04, 0.  ],
       [1.  , 0.  , 0.  ],
       [0.  , 1.  , 0.  ],
       [0.04, 0.04, 0.92]])

属性：feature_importances_ 特征重要性评分

[*zip(wine.feature_names,rfc.feature_importances_)]

[('alcohol', 0.12198679686258679),
 ('malic_acid', 0.02762880277046342),
 ('ash', 0.020429313443862722),
 ('alcalinity_of_ash', 0.04431583357245361),
 ('magnesium', 0.033968954054681415),
 ('total_phenols', 0.038263957377275275),
 ('flavanoids', 0.1408080229991804),
 ('nonflavanoid_phenols', 0.010215119630325406),
 ('proanthocyanins', 0.005887369287630495),
 ('color_intensity', 0.18147980477356618),
 ('hue', 0.0848840620720855),
 ('od280/od315_of_diluted_wines', 0.14228838485786396),
 ('proline', 0.14784357829802486)]

袋装法的必要条件

基评估器相互独立
基评估器分类准确率大于50％

import numpy as np
 
x = np.linspace(0,1,20)
 
y = []
for epsilon in np.linspace(0,1,20):
    E = np.array([comb(25,i)*(epsilon**i)*((1-epsilon)**(25-i)) for i in range(13,26)]).sum()      
    y.append(E)
plt.plot(x,y,"o-",label="when estimators are different")
plt.plot(x,x,"--",color="red",label="if all estimators are same")
plt.xlabel("individual estimator's error")
plt.ylabel("RandomForest's error")
plt.legend()
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传在这里插入图片描述 (img-5e7eavXS-1587530490955)(output_48_0.png)]

随机森林回归

与分类树有两点不同：

模型评估指标：回归树用的MSE或R平方，默认接口score返回的是R方,且不能更改，想用MSE就只能使用交叉验证了。
分支质量的不纯度衡量指标：回归树支持三种指标，默认为MSE

from sklearn.datasets import load_boston#一个标签是连续西变量的数据集
from sklearn.model_selection import cross_val_score#导入交叉验证模块
from sklearn.ensemble import RandomForestRegressor#导入随机森林回归系

boston = load_boston()
regressor = RandomForestRegressor(n_estimators=100,random_state=0)
cross_val_score(regressor, boston.data, boston.target, cv=10
               ,scoring = "neg_mean_squared_error"#如果不写scoring，回归评估默认是R平方
               )

array([-10.72900447,  -5.36049859,  -4.74614178, -20.84946337,
       -12.23497347, -17.99274635,  -6.8952756 , -93.78884428,
       -29.80411702, -15.25776814])

sklearn中回归类模型的评估指标

import sklearn
sorted(sklearn.metrics.SCORERS.keys())#这些指标是scoring可选择的参数

['accuracy',
 'adjusted_mutual_info_score',
 'adjusted_rand_score',
 'average_precision',
 'balanced_accuracy',
 'completeness_score',
 'explained_variance',
 'f1',
 'f1_macro',
 'f1_micro',
 'f1_samples',
 'f1_weighted',
 'fowlkes_mallows_score',
 'homogeneity_score',
 'jaccard',
 'jaccard_macro',
 'jaccard_micro',
 'jaccard_samples',
 'jaccard_weighted',
 'max_error',
 'mutual_info_score',
 'neg_brier_score',
 'neg_log_loss',
 'neg_mean_absolute_error',
 'neg_mean_gamma_deviance',
 'neg_mean_poisson_deviance',
 'neg_mean_squared_error',
 'neg_mean_squared_log_error',
 'neg_median_absolute_error',
 'neg_root_mean_squared_error',
 'normalized_mutual_info_score',
 'precision',
 'precision_macro',
 'precision_micro',
 'precision_samples',
 'precision_weighted',
 'r2',
 'recall',
 'recall_macro',
 'recall_micro',
 'recall_samples',
 'recall_weighted',
 'roc_auc',
 'roc_auc_ovo',
 'roc_auc_ovo_weighted',
 'roc_auc_ovr',
 'roc_auc_ovr_weighted',
 'v_measure_score']

实例：随机森林回归填补缺失值

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.impute import SimpleImputer #填补缺失值的类
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score

dataset = load_boston()

dataset.data#数据的特征矩阵,全部为数值类型
dataset.data.shape#数据的结构 总共506*13=6578个数据

(506, 13)

原始数据是没有缺失值的，需要构造含有缺失值的数据

X_full, y_full = dataset.data, dataset.target
n_samples = X_full.shape[0]#506
n_features = X_full.shape[1]#13

#首先确定我们希望放入的缺失数据的比例，在这里我们假设是50%，那总共就要有3289个数据缺失
 
rng = np.random.RandomState(0)#设置一个随机种子，方便观察
missing_rate = 0.5
n_missing_samples = int(np.floor(n_samples * n_features * missing_rate))
#np.floor向下取整，返回.0格式的浮点数

 #所有数据要随机遍布在数据集的各行各列当中，而一个缺失的数据会需要一个行索引和一个列索引
#如果能够创造一个数组，包含3289个分布在0~506中间的行索引，和3289个分布在0~13之间的列索引，那我们就可以利用索引来为数据中的任意3289个位置赋空值
#然后我们用0，均值和随机森林来填写这些缺失值，然后查看回归的结果如何
 
missing_features = rng.randint(0,n_features,n_missing_samples)
#randint（下限，上限，n）指在下限和上限之间取出n个整数
len(missing_features)#3289
missing_samples = rng.randint(0,n_samples,n_missing_samples)
len(missing_samples)#3289

X_missing = X_full.copy()
y_missing = y_full.copy()

#置空
X_missing[missing_samples,missing_features] = np.nan

#转化为DataFrame
X_missing = pd.DataFrame(X_missing)
X_missing.head()

	0	1	2	3	4	5	6	7	8	9	10	11	12
0	NaN	18.0	NaN	NaN	0.538	NaN	65.2	4.0900	1.0	296.0	NaN	NaN	4.98
1	0.02731	0.0	NaN	0.0	0.469	NaN	78.9	4.9671	2.0	NaN	NaN	396.9	9.14
2	0.02729	NaN	7.07	0.0	NaN	7.185	61.1	NaN	2.0	242.0	NaN	NaN	NaN
3	NaN	NaN	NaN	0.0	0.458	NaN	45.8	NaN	NaN	222.0	18.7	NaN	NaN
4	NaN	0.0	2.18	0.0	NaN	7.147	NaN	NaN	NaN	NaN	18.7	NaN	5.33

使用均值和0填补

#使用均值进行填补
from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')#实例化
X_missing_mean = imp_mean.fit_transform(X_missing)#特殊的接口fit_transform = 训练fit + 导出predict

#查看是否含有null
#布尔值False = 0， True = 1 
# pd.DataFrame(X_missing_mean).isnull().sum()#如果求和为0可以彻底确认是否有NaN

#使用0进行填补
imp_0 = SimpleImputer(missing_values=np.nan, strategy="constant",fill_value=0)#constant指的是常数
X_missing_0 = imp_0.fit_transform(X_missing)

随机森林回归填补

1. 如果只有一个特征含有缺失值

训练集，特征T未缺失部分样本的其他n-1个特征 +原标签：作为训练集特征矩阵
特征T未缺失部分样本：作为训练集标签
测试集，特征T缺失部分的样本的其他n-1个特征 +原标签：作为测试集输入

2. 如果多个特征含有缺失值

答案是遍历所有的特征，从缺失最少的开始进行填补（因为填补缺失最少的特征所需要的
准确信息最少）。填补一个特征时，先将其他特征的缺失值用0代替，每完成一次回归
预测，就将预测值放到原本的特征矩阵中，再继续填补下一个特征

# 复制数据
X_missing_reg = X_missing.copy()

#找出数据集中，缺失值从小到大排列的特征们的顺序，并且有了这些的索引
sortindex = np.argsort(X_missing_reg.isnull().sum()).values#np.argsort()返回的是从小到大排序的顺序所对应的索引

 
for i in sortindex:
    
    #构建我们的新特征矩阵（没有被选中去填充的特征 + 原始的标签）和新标签（被选中去填充的特征）
    df = X_missing_reg
    fillc = df.iloc[:,i]#新标签
    df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y_full)],axis=1)#新特征矩阵
    
    #在新特征矩阵中，对含有缺失值的列，进行0的填补
    df_0 =SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0).fit_transform(df)
                        
    #找出我们的训练集和测试集
    Ytrain = fillc[fillc.notnull()]# Ytrain是被选中要填充的特征中（现在是我们的标签），存在的那些值：非空值
    Ytest = fillc[fillc.isnull()]#Ytest 是被选中要填充的特征中（现在是我们的标签），不存在的那些值：空值。注意我们需要的不是Ytest的值，需要的是Ytest所带的索引
    Xtrain = df_0[Ytrain.index,:]#在新特征矩阵上，被选出来的要填充的特征的非空值所对应的记录
    Xtest = df_0[Ytest.index,:]#在新特征矩阵上，被选出来的要填充的特征的空值所对应的记录
    
    #用随机森林回归来填补缺失值
    rfc = RandomForestRegressor(n_estimators=100)#实例化
    rfc = rfc.fit(Xtrain, Ytrain)#导入训练集进行训练
    Ypredict = rfc.predict(Xtest)#用predict接口将Xtest导入，得到我们的预测结果（回归结果），就是我们要用来填补空值的这些值
    
    #将填补好的特征返回到我们的原始的特征矩阵中
    X_missing_reg.loc[X_missing_reg.iloc[:,i].isnull(),i] = Ypredict

#检验是否有空值
X_missing_reg.isnull().sum()

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
dtype: int64

#比较 原数据建模结果 用均值填补结果 用0值填补结果 用随机森林回归填补 4中情况建模的效果
 
X = [X_full,X_missing_mean,X_missing_0,X_missing_reg]
 
mse = []
std = []
for x in X:
    estimator = RandomForestRegressor(random_state=0, n_estimators=100)#实例化
    scores = cross_val_score(estimator,x,y_full,scoring='neg_mean_squared_error', cv=5).mean()
    mse.append(scores * -1)

[*zip(['Full data','Zero Imputation','Mean Imputation','Regressor Imputation'],mse)]

[('Full data', 21.62860460743544),
 ('Zero Imputation', 40.84405476955929),
 ('Mean Imputation', 49.50657028893417),
 ('Regressor Imputation', 18.255872365734806)]

可视化之：条形图

x_labels = ['Full data',
            'Zero Imputation',
            'Mean Imputation',
            'Regressor Imputation']
colors = ['r', 'g', 'b', 'orange']
 
plt.figure(figsize=(12, 6))#画出画布
ax = plt.subplot(111)#添加子图
for i in np.arange(len(mse)):
    ax.barh(i, mse[i],color=colors[i], alpha=0.6, align='center')#bar为条形图，barh为横向条形图，alpha表示条的粗度
#条形图的一些主要设置
ax.set_title('Imputation Techniques with Boston Data') #子图的设置加上set_前缀
ax.set_xlim(left=np.min(mse) * 0.9,
             right=np.max(mse) * 1.1)#设置x轴取值范围
ax.set_xlabel('MSE') #x轴的标签
ax.set_yticks(np.arange(len(mse))) #y轴的刻度，长条的数量构成的整数列表
ax.set_yticklabels(x_labels) #y轴每个刻度上的标签
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img 在这里插入图片描述 -M1rSNYly-1587530490960)(output_74_0.png)]

实例：随机森林在乳腺癌数据上的调参

泛化误差：

衡量模型在未知数据上的表现
受模型结构（复杂度）影响。模型太复杂，模型就容易过拟合，泛化能力就不够，所以泛化误差大。当模型太简单，模型就会欠拟合，拟合能力就不够，所以误差也会大。只有当模型的复杂度刚刚好的才能够达到泛化误差最小的目标
对树和树的集成模型来说，树的深度越深，枝叶越多，模型越复杂
树和树的集成模型的学习能力很强，一般都会过拟合，所以都是往减少模型复杂度的方向调整参数

偏差方差

一个集成模型（f）在位置数据集（D）上的泛化误差：

$E(f;D)=biax^2+var(x)+ε^2$

[外链图片转存失败在这里插入图片描述 ,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FBkijwdY-1587530490962)(./泛化误差.png)]

偏差:
模型的预测值与真实值之间的差异，即每一个红点到蓝线的距离。在集成算法中，每个基评估器都会有
自己的偏差，集成评估器的偏差是所有基评估器偏差的均值。衡量模型的精确性，模型越精确，偏差越低

方差:
反映的是模型每一次输出结果与模型预测值的平均水平之间的误差，即每一个红点到红色虚线的距离，
衡量模型的稳定性。模型越稳定，方差越低。

噪声:
机器学习无法干涉的部分

一个好的模型应当要对绝大多数未知数据预测的既准又稳

	偏差大	偏差小
方差大	模型不适合数据，换模型	过拟合，模型很复杂，有的数据预测很准，有的预测很糟糕
方差小	欠拟合，模型相对简单，预测很稳定，但对所有数据预测都不太准确	泛化误差小，理想的模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(im 在这里插入图片描述 g-C6g9UKbZ-1587530490965)(./偏差方差.png)]|

基于经验，根据随机森林参数对模型复杂度的影响程度，调参的顺序为：

n_estimator：理论上越大越好，提升至平稳，该参数不影响单个模型的复杂度—>
max_depth：默认不限制，即最高复杂度。这个参数的难点在于不知道树实际的深度—>
min_samples_leaf：默认为1，即最高复杂度。增大会降低模型复杂度—>
min_samples_split：默认为2，即最高复杂度。增大会降低模型复杂度—>
max_features：默认auto，是特征总数的开平方，位于中间复杂度，增大则增加复杂度，减少会降低复杂度—>
criterion:默认gini

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

data = load_breast_cancer()

rfc = RandomForestClassifier(n_estimators=100,random_state=90)
score_pre = cross_val_score(rfc,data.data,data.target,cv=10).mean()#交叉验证的分类默认scoring='accuracy'
score_pre

0.9648809523809524

参数：n_estimators

在这里我们选择学习曲线，可以使用网格搜索吗？可以，但是只有学习曲线，才能看见趋势
我个人的倾向是，要看见n_estimators在什么取值开始变得平稳，是否一直推动模型整体准
确率的上升等信息。第一次的学习曲线，可以先用来帮助我们划定范围，我们取每十个数作
为一个阶段，来观察n_estimators的变化如何引起模型整体准确率的变化

scorel = []
for i in range(0,200,10):
    rfc = RandomForestClassifier(n_estimators=i+1,
                                 n_jobs=-1,
                                 random_state=90)
    score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
    scorel.append(score)
print(max(scorel),(scorel.index(max(scorel))*10)+1)
plt.figure(figsize=[20,5])
plt.plot(range(1,201,10),scorel)
plt.show()

0.9631265664160402 71

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-roKwcX8i-1587530490968)(output_89_1.png)]

scorel = []
for i in range(65,75):
    rfc = RandomForestClassifier(n_estimators=i,
                                 n_jobs=-1,
                                 random_state=90)
    score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
    scorel.append(score)
print(max(scorel),([*range(65,75)][scorel.index(max(scorel))]))
plt.figure(figsize=[20,5])
plt.plot(range(65,75),scorel)
plt.show()

0.9666353383458647 73

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mq5Njl6W-1587530490971)(output_90_1.png)]

有一些参数是没有参照的，很难说清一个范围，这种情况下我们使用学习曲线，看趋势从曲线跑出的结果中选取一个更小的区间，再跑曲线。如

param_grid = {‘n_estimators’:np.arange(0, 200, 10)}
param_grid = {‘max_depth’:np.arange(1, 20, 1)}
param_grid = {‘max_leaf_nodes’:np.arange(25,50,1)}
对于大型数据集，可以尝试从1000来构建，先输入1000，每100个叶子一个区间，再逐渐缩小范围
2. 有一些参数是可以找到一个范围的，或者说我们知道他们的取值和随着他们的取值，模型的整体准确率会如何变化，这样的参数我们就可以直接跑网格搜索
param_grid = {‘criterion’:[‘gini’, ‘entropy’]}
param_grid = {‘min_samples_split’:np.arange(2, 2+20, 1)}
param_grid = {‘min_samples_leaf’:np.arange(1, 1+10, 1)}
param_grid = {‘max_features’:np.arange(5,30,1)}

#调整max_depth
 
param_grid = {'max_depth':np.arange(1, 20, 1)}
 
#   一般根据数据的大小来进行一个试探，乳腺癌数据很小，所以可以采用1~10，或者1~20这样的试探
#   但对于像digit recognition那样的大型数据来说，我们应该尝试30~50层深度（或许还不足够
#   更应该画出学习曲线，来观察深度对模型的影响
 
rfc = RandomForestClassifier(n_estimators=73
                             ,random_state=90
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)#网格搜索
GS.fit(data.data,data.target)
 
GS.best_params_#显示调整出来的最佳参数
 
GS.best_score_#返回调整好的最佳参数对应的准确率

0.9666353383458647

#调整max_features
 
param_grid = {'max_features':np.arange(5,30,1)} 
 
rfc = RandomForestClassifier(n_estimators=73
                             ,random_state=90
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
 
GS.best_params_
 
GS.best_score_

0.9666666666666668

#调整min_samples_leaf
 
param_grid={'min_samples_leaf':np.arange(1, 1+10, 1)}
 
#对于min_samples_split和min_samples_leaf,一般是从他们的最小值开始向上增加10或20
#面对高维度高样本量数据，如果不放心，也可以直接+50，对于大型数据，可能需要200~300的范围
#如果调整的时候发现准确率无论如何都上不来，那可以放心大胆调一个很大的数据，大力限制模型的复杂度
 
rfc = RandomForestClassifier(n_estimators=39
                             ,random_state=90
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
 
GS.best_params_
 
GS.best_score_

f:\Anaconda3\lib\site-packages\sklearn\model_selection\_search.py:841: DeprecationWarning: The default of the `iid` parameter will change from True to False in version 0.22 and will be removed in 0.24. This will change numeric results when test-set sizes are unequal.
  DeprecationWarning)





0.9718804920913884

#调整min_samples_split
 
param_grid={'min_samples_split':np.arange(2, 2+20, 1)}
 
rfc = RandomForestClassifier(n_estimators=39
                             ,random_state=90
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
 
GS.best_params_
 
GS.best_score_

f:\Anaconda3\lib\site-packages\sklearn\model_selection\_search.py:841: DeprecationWarning: The default of the `iid` parameter will change from True to False in version 0.22 and will be removed in 0.24. This will change numeric results when test-set sizes are unequal.
  DeprecationWarning)





0.9718804920913884

#调整Criterion
 
param_grid = {'criterion':['gini', 'entropy']}
 
rfc = RandomForestClassifier(n_estimators=39
                             ,random_state=90
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
 
GS.best_params_
 
GS.best_score_

0.9718804920913884

rfc = RandomForestClassifier(n_estimators=39,random_state=90)
score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
score
 
score - score_pre

0.005264238181661218

12466434

关注

18
点赞
踩
197

收藏

觉得还不错? 一键收藏
5
评论
随机森林分类、回归算法原理及调参实战

集成算法 ensemble通过在数据集上构建多个模型，集成所有模型的建模结果，得到一个综合的结果，以此来获得比单个模型更好的分类或回归表现装袋法bagging：构建多个相互独立的基评估器（base estimator）,然后对其预测进行平均或多数表决原则来决定集成评估器的结果。装袋法的代表模型就是随机森林提升法boosting: 基评估器是相关的，是按顺序一一...
复制链接

扫一扫