随机森林|乳腺癌数据集

最新推荐文章于 2024-07-02 18:18:54 发布

Lemon_ZL

最新推荐文章于 2024-07-02 18:18:54 发布

阅读量3.7k

点赞数 2

本文链接：https://blog.csdn.net/lemon_zl/article/details/106019325

版权

随机森林（Random Forest）其实也算Bagging的一种，但是有一点区别是随机森林在构建决策树的时候，会随机选择样本特征中的一部分来进行划分。由于随机森林的二重随机性，它具有良好的学习性能。以随机森林为代表的装袋法的训练过程旨在降低方差，即降低模型复杂度

Bagging的原理首先是基于自助采样法（bootstrap sampling）随机得到一些样本集训练，用来分别训练不同的基学习器，然后对不同的基学习器得到的结果投票得出最终的分类结果。自助采样法得到的样本大概会有63%的数据样本被使用，剩下的可以用来做验证集。装袋法的核心思想是构建多个相互独立的评估器，然后对其预测进行平均或多数表决原则来决定集成评估器的结果

1.不调参的分数0.9666

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
data = load_breast_cancer()
rfc = RandomForestClassifier(n_estimators=100,random_state=90)
score_pre = cross_val_score(rfc,data.data,data.target,cv=10).mean()
score_pre

2.n_estimators: 也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数。1-101，每隔10取一个数

最高分数0.9684

scorel = []
C = range(1,101,10)
for i in C:
    rfc = RandomForestClassifier(n_estimators=i,
                                 n_jobs=-1,
                                 random_state=90)
    score = cross_val_score(rfc, data.data, data.target, cv=10).mean()
    scorel.append(score)
print(max(scorel),(scorel.index(max(scorel))*10))
plt.figure(figsize=[20,5])
plt.plot(C,scorel)
plt.show()

再细化一下 0.9719

scorel = []
for i in range(35,45):
    rfc = RandomForestClassifier(n_estimators=i,
                                 n_jobs=-1,
                                 random_state=90)
    score = cross_val_score(rfc, data.data, data.target,cv=10).mean()
    scorel.append(score)
print(max(scorel), ([*range(35,45)][scorel.index(max(scorel))]))
plt.figure(figsize=[20,5])
plt.plot(range(35,45), scorel)
plt.show()

尝试网格搜索

param_grid={'min_samples_split':np.arange(2, 2+20, 1)}
 
rfc = RandomForestClassifier(n_estimators=39
                             ,random_state=90
                             ,n_jobs= -1
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)

分数并没有提升

Lemon_ZL

关注

2
点赞
踩
18

收藏

觉得还不错? 一键收藏
4
评论
随机森林|乳腺癌数据集

随机森林（Random Forest）其实也算Bagging的一种，但是有一点区别是随机森林在构建决策树的时候，会随机选择样本特征中的一部分来进行划分。由于随机森林的二重随机性，它具有良好的学习性能。以随机森林为代表的装袋法的训练过程旨在降低方差，即降低模型复杂度1.不调参的分数0.9666from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifier...
复制链接

扫一扫