网格搜索 GridSearchCV\训练集、验证集和测试集

最新推荐文章于 2024-05-10 17:30:36 发布

小麦粒

最新推荐文章于 2024-05-10 17:30:36 发布

阅读量8.7k

点赞数 6

分类专栏： GridSearchCV

本文链接：https://blog.csdn.net/u010986753/article/details/98068545

版权

文章目录

一、GridSearchCV简介
- 1.1 参数解释
- 1.2 简单的网格搜索 iris_svc
二、优化
- 2.1 训练集、验证集和测试集
- 2.2 Grid Search with Cross Validation
三、GridSearchCV
- 3.1 GridSearchCV 代码
- 3.2 总结
有趣的事，Python永远不会缺席
培训说明

一、GridSearchCV简介

GridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法适合于小数据集，一旦数据的量级上去了，很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法：拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优，但是省时间省力，巨大的优势面前，还是试一试吧，后续可以再拿bagging再优化。
通常算法不够好，需要调试参数时必不可少。比如SVM的惩罚因子C，核函数kernel，gamma参数等，对于不同的数据使用不同的参数，结果效果可能差1-5个点，sklearn为我们提供专门调试参数的函数grid_search。
Grid Search：一种调优方法，在参数列表中进行穷举搜索，对每种情况进行训练，找到最优的参数；由此可知，这种方法的主要缺点是 比较耗时！

1.1 参数解释

from sklearn.model_selection import GridSearchCV
GridSearchCV(
    estimator,
    param_grid,
    scoring=None,
    fit_params=None,
    n_jobs=1,
    iid=True,
    refit=True,
    cv=None,
    verbose=0,
    pre_dispatch='2*n_jobs',
    error_score='raise',
    return_train_score='warn')

Parameters：

estimator：所使用的分类器，或者pipeline
param_grid：值为字典或者列表，即需要最优化的参数的取值
scoring：准确度评价标准，默认None,这时需要使用score函数；或者如scoring=‘roc_auc’，根据所选模型不同，评价准则不同。字符串（函数名），或是可调用对象，需要其函数签名形如：scorer(estimator, X, y)；如果是None，则使用estimator的误差估计函数。返回给定测试集合的平均准确率（mean accuracy），浮点型数值。
n_jobs：并行数，int：个数,-1：跟CPU核数一致, 1:默认值。
pre_dispatch：指定总共分发的并行任务数。当n_jobs大于1时，数据将在每个运行点进行复制，这可能导致OOM，而设置pre_dispatch参数，则可以预先划分总共的job数量，使数据最多被复制pre_dispatch次
iid：默认True,为True时，默认为各个样本fold概率分布一致，误差估计为所有样本之和，而非各个fold的平均。
cv：交叉验证参数，默认None，使用三折交叉验证。指定fold数量，默认为3，也可以是yield训练/测试数据的生成器。
refit：默认为True,程序将会以交叉验证训练集得到的最佳参数，重新对所有可用的训练集与开发集进行，作为最终用于性能评估的最佳模型参数。即在搜索参数结束后，用最佳参数结果再次fit一遍全部数据集。
verbose：日志冗长度，int：冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出。

Attributes：

best_estimator_：效果最好的分类器

best_score_：成员提供优化过程期间观察到的最好的评分

best_params_：描述了已取得最佳结果的参数的组合

best_index_：对应于最佳候选参数设置的索引(cv_results_数组的索引)。

Methods：

decision_function:使用找到的参数最好的分类器调用decision_function。
**fit(X, y=None, groups=None, fit_params):训练
get_params(deep=True):获取这个估计器的参数。
predict(X):用找到的最佳参数调用预估器。(直接预测每个样本属于哪一个类别)
predict_log_proda(X):用找到的最佳参数调用预估器。（得到每个测试集样本在每一个类别的得分取log情况）
predict_proba(X):用找到的最佳参数调用预估器。（得到每个测试集样本在每一个类别的得分情况）
score(X, y=None)：返回给定数据上的得分，如果预估器已经选出最优的分类器。
transform(X):调用最优分类器进行对X的转换。

1.2 简单的网格搜索 iris_svc

from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

iris = load_iris()
X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=0)#默认size=0.25
print("Size of training set:{} size of testing set:{}".format(X_train.shape[0],X_test.shape[0]))
# Size of training set:112 size of testing set:38
#   grid search start
best_score = 0
for gamma in [0.001,0.01,0.1,1,10,100]:
    for C in [0.001,0.01,0.1,1,10,100]:
        svm = SVC(gamma=gamma,C=C)#对于每种参数可能的组合，进行一次训练；

最低0.47元/天解锁文章

小麦粒

关注

6
点赞
踩
51

收藏

觉得还不错? 一键收藏
4
评论
网格搜索 GridSearchCV\训练集、验证集和测试集

GridSearchCV，它存在的意义就是**自动调参**，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法**适合于小数据集**，一旦数据的量级上去了，很难得出结果。这个时候就是需要动脑筋了。**数据量比较大**的时候可以使用一个**快速调优的方法——坐标下降**。它其实是一种贪心算法：拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优，但是省时间省力，巨大的优势面前，还是试一试吧，后续可
复制链接

扫一扫