随机森林在乳腺癌数据上的调查

最新推荐文章于 2023-04-12 10:32:53 发布

王乐乐0727

最新推荐文章于 2023-04-12 10:32:53 发布

阅读量1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/wanglele1/article/details/99879475

版权

机器学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

本次数据来源于kaggle上的自带数据，结构相对清晰简单，所有数据已经特征化
注：随机森林主要参数
在这里插入图片描述

1，先导入需要的库

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

2，导入数据集，探索数据

data = load_breast_cancer()
data.data.shape

可以看出，乳腺癌数据集有569条记录，10个特征，维度不算太高，但样本量非常少。过拟合情况可能存在。
在这里插入图片描述 3. 进行一次简单的建模，看看模型本身在数据集上的效果

#实例化
rfc = RandomForestClassifier(n_estimators=100,random_state=90)
score_pre = cross_val_score(rfc,data.data,data.target,cv=10).mean()
score_pre

在这里插入图片描述这里可以看到，随机森林在乳腺癌数据上的表现本就还不错，在现实数据集上，基本上不可能什么都不调就看到95%以
上的准确率
4. 随机森林调整的第一步：无论如何先来调n_estimators
在这里我们选择学习曲线，可以使用网格搜索吗？可以，但是只有学习曲线，才能看见趋势，我个人的倾向是，要看见n_estimators在什么取值开始变得平稳，是否一直推动模型整体准确率的上升等信息第一次的学习曲线，可以先用来帮助我们划定范围，我们取每十个数作为一个阶段，来观察n_estimators的变化如何引起模型整体准确率的变化

scorel = []
for i in range(0,200,10):
    rfc = RandomForestClassifier(n_estimators=i+1,
                                n_jobs=-10,
                                random_state=90)
    score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
    scorel.append(score)
print(max(scorel),(scorel.index(max(scorel))*10)+1)
#返回这个object在列表list中的索引
plt.figure(figsize=[20,5])
plt.plot(range(1,201,10),scorel)
plt.show()

这段代码的运行时间比较长，大概5分钟左右
在这里插入图片描述 5,在确定好的范围内，进一步细化学习曲线，范围从35-45

scorel = []
for i in range(35,45):
    rfc = RandomForestClassifier(n_estimators=i,
        											n_jobs=-1,
       											   random_state=90)
    score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
    scorel.append(score)
print(max(scorel),([*range(35,45)][scorel.index(max(scorel))]))
plt.figure(figsize=[20,5])
plt.plot(range(35,45),scorel)
plt.show()

在这里插入图片描述可见，当n_estimators=39时，模型的准确度最高,调整n_estimators的效果显著，模型的准确率立刻上升了0.005。接下来就进入网格搜索，我们将使用网格搜索对参数一个个进行调整。为什么我们不同时调整多个参数呢？原因有两个：
1）同时调整多个参数会运行非常缓慢，我们没有这么多的时间。
2）**同时调整多个参数，会让我们无法理解参数的组合是怎么得来的，**所以即便网格搜索调出来的结果不好，我们也不知道从哪里去改。
在这里，为了使用复杂度-泛化误差方法（方差-偏差方法），我们对参数进行一个个地调整。
6，为网格搜索做准备，书写网格搜索的参数

有一些参数是没有参照的，很难说清一个范围，这种情况下我们使用学习曲线，看趋势
从曲线跑出的结果中选取一个更小的区间，再跑曲线
param_grid = {'n_estimators':np.arange(0, 200, 10)}
param_grid = {'max_depth':np.arange(1, 20, 1)}
param_grid = {'max_leaf_nodes':np.arange(25,50,1)}
对于大型数据集，可以尝试从1000来构建，先输入1000，每100个叶子一个区间，再逐渐缩小范围
有一些参数是可以找到一个范围的，或者说我们知道他们的取值和随着他们的取值，模型的整体准确率会如何变化，这
样的参数我们就可以直接跑网格搜索
param_grid = {'criterion':['gini', 'entropy']}
param_grid = {'min_samples_split':np.arange(2, 2+20, 1)}
param_grid = {'min_samples_leaf':np.arange(1, 1+10, 1)}
param_grid = {'max_features':np.arange(5,30,1)}

7，开始按照参数对模型整体准确率的影响程度进行调参，首先调整max_depth

param_grid = {'max_depth':np.arange(1, 20, 1)}
# 一般根据数据的大小来进行一个试探，乳腺癌数据很小，所以可以采用1~10，或者1~20这样的试探
# 但对于像digit recognition那样的大型数据来说，我们应该尝试30~50层深度（或许还不足够
# 更应该画出学习曲线，来观察深度对模型的影响
rfc = RandomForestClassifier(n_estimators=39
                            ,random_state=90
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)

输出：

GridSearchCV(cv=10, error_score='raise-deprecating',
       estimator=RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=39, n_jobs=None,
            oob_score=False, random_state=90, verbose=0, warm_start=False),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'max_depth': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19])},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=0)

GS.best_params_

在这里插入图片描述

GS.best_score_

在这里插入图片描述

王乐乐0727

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
随机森林在乳腺癌数据上的调查

本次数据来源于kaggle上的自带数据，结构相对清晰简单，所有数据已经特征化1，先导入需要的库from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridSearchCVfr...
复制链接

扫一扫

专栏目录