gridsearchcv(网格搜索)&kfold validation(k折验证) in ML

转自:https://blog.csdn.net/qq_30490125/article/details/80387414

网格搜索算法是一种通过遍历给定的参数组合来优化给定模型性能的方法。

以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。

于是我们会给出一系列的最大深度的值,比如 {‘max_depth’: [1,2,3,4,5]},我们会尽可能包含最优最大深度。

不过,我们如何知道哪一个最大深度的模型是最好的呢?我们需要一种可靠的评分方法,对每个最大深度的决策树模型都进行评分,这其中非常经典的一种方法就是交叉验证,下面我们就以K 折交叉验证为例,详细介绍它的算法过程。

首先我们先看一下数据集是如何分割的。我们拿到的原始数据集首先会按照一定的比例划分成训练集和测试集。比如下图,以 8:2 (5折)分割的数据集: 
这里写图片描述

训练集用来训练我们的模型;测试集用来评估我们训练好的模型性能。

因此,在K 折交叉验证中,我们用到的数据是训练集中的所有数据。我们将训练集的所有数据平均划分成 K 份(通常选择 K=10),取第 K 份作为验证集,它的作用就像我们用来估计高考分数的模拟题,余下的 K-1 份作为交叉验证的训练集。

对于我们最开始选择的决策树的 5 个最大深度 ,以 max_depth=1 为例,我们先用第 2-10 份数据作为训练集训练模型,用第 1 份数据作为验证集对这次训练的模型进行评分,得到第一个分数;然后重新构建一个 max_depth=1 的决策树,用第 1 和 3-10 份数据作为训练集训练模型,用第 2 份数据作为验证集对这次训练的模型进行评分,得到第二个分数……以此类推,最后构建一个 max_depth=1 的决策树用第 1-9 份数据作为训练集训练模型,用第 10 份数据作为验证集对这次训练的模型进行评分,得到第十个分数。于是对于 max_depth=1 的决策树模型,我们训练了 10 次,验证了 10 次,得到了 10 个验证分数,然后计算这 10 个验证分数的平均分数,就是 max_depth=1 的决策树模型的最终验证分数。 
这里写图片描述

对于 max_depth = 2,3,4,5 时,分别进行和 max_depth=1 相同的交叉验证过程,得到它们的最终验证分数。然后我们就可以对这 5 个最大深度的决策树的最终验证分数进行比较,分数最高的那一个就是最优最大深度,我们利用最优参数在全部训练集上训练一个新的模型,整个模型就是最优模型


举个栗子:

from sklearn.model_selection import GridSearchCV, KFold, train_test_split
from sklearn.metrics import make_scorer, accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
    data['data'], data['target'], train_size=0.8, random_state=0)
regressor = DecisionTreeClassifier(random_state=0)
parameters = {'max_depth': range(1, 6)}
scoring_fnc = make_scorer(accuracy_score)
kfold = KFold(n_splits=10)
grid = GridSearchCV(regressor, parameters, scoring_fnc, cv=kfold)
grid = grid.fit(X_train, y_train)
reg = grid.best_estimator_
print('best score: %f'%grid.best_score_)
print('best parameters:')
for key in parameters.keys():
    print('%s: %d'%(key, reg.get_params()[key]))
print('test score: %f'%reg.score(X_test, y_test))
import pandas as pd
pd.DataFrame(grid.cv_results_).T

直接用决策树得到的分数大约是92%,经过网格搜索优化以后,我们可以在测试集得到95.6%的准确率:

best score: 0.938462
best parameters:
max_depth: 4
test score: 0.956140
  • 这里写图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这段代码的作用是使用随机森林算法对乳腺癌数据集进行分类,并找到最佳的模型参数。 首先,代码从sklearn.datasets库中导入了load_breast_cancer函数和从sklearn.model_selection库中导入了train_test_split、GridSearchCV和KFold函数以及从sklearn.ensemble库中导入了RandomForestClassifier类。 然后,代码调用load_breast_cancer()函数来加载乳腺癌数据集。接着,使用train_test_split函数将数据集分成训练集和测试集。其中,test_size参数指定测试集所占比例为30%,random_state参数用于设置随机数种子,以确保每次运行代码时得到的结果相同。 随后,使用KFold函数将训练集分成5个叠,shuffle参数设为True表示在拆分之前对数据进行随机重排,random_state参数用于设置随机数种子。 接下来,定义一个字典param_grid,其中包含了随机森林算法的两个参数:n_estimators和max_depth。n_estimators参数表示随机森林中决策树的数量,max_depth参数表示每个决策树的最大深度。param_grid的取值范围分别为1到20和5到15。 然后,创建一个RandomForestClassifier类的实例rf,将其作为参数传递给GridSearchCV函数,用于在给定的参数空间中搜索最佳的参数组合。cv参数指定使用的交叉验证策略,n_jobs参数指定使用的CPU数量。 接着,调用fit方法来训练模型并搜索最佳参数组合,将结果存储在grid_search对象中。 接下来,创建一个新的RandomForestClassifier类的实例best_rf,使用grid_search.best_params_字典中的最佳参数组合来初始化该实例,并将其用于训练数据。最后,使用best_rf.predict方法对测试数据进行预测,将结果存储在y_pred变量中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值