机器学习6 --交叉验证和网格搜索

温旧酒一壶~

已于 2022-02-21 08:41:44 修改

阅读量2.3k

点赞数 2

文章标签：机器学习人工智能

于 2022-02-14 17:34:12 首次发布

本文链接：https://blog.csdn.net/weixin_41395763/article/details/122928855

版权

1.交叉验证：

    意义：为了让被评估的模型更加的准确可信(交叉验证平均值最大的才是最可信的)，
    作用：确定估计器最好的超参数是哪个。
    实际操作：把训练集分为几个等份，其中包括一份验证集（类似测试集）和多份训练集。而且你还要知道：这份验证集是不固定的，你分为多少份，验证集就有多少种可能；这份验证集的训练集是剩下的多份训练集之和，而不是某一份训练集

网格搜索：

Grid Search：一种调参手段；穷举搜索：在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。（为什么叫网格搜索？以有两个参数的模型为例，参数a有3种可能，参数b有4种可能，把所有可能性列出来，可以表示成一个3*4的表格，其中每个cell就是一个网格，循环过程就像是在每个网格里遍历、搜索，所以叫grid search）

parameters table

网格搜索：指定模型估计器的超参数，程序自动的帮你使用穷举法来将所用的参数都运行一遍。
网格搜索是要配合交叉验证一起使用的。

网格搜索实现

基于网格搜索的简单逻辑，我们可以很容易实现，并找到最好的超参数

####   grid search start
best_score = 0
for gamma in [0.001,0.01,0.1,1,10,100]:
    for C in [0.001,0.01,0.1,1,10,100]:
        svm = SVC(gamma=gamma,C=C)#对于每种参数可能的组合，进行一次训练；
        svm.fit(X_train,y_train)
        score = svm.score(X_test,y_test)
        if score > best_score:#找到表现最好的参数
            best_score = score
            best_parameters = {'gamma':gamma,'C':C}
####   grid search end

事实上，在sklearn里面实现了网格搜索的模块，我们使用时可以直接调用GridSearchCV()。这也是考虑到当参数较多时，需要写多个for，较为累赘。

下面是一个使用网格搜索找到Lasso回归的最好的参数的例子。

>from sklearn.linear_model import Lasso
>from sklearn.model_selection import GridSearchCV
>parameters= {'alpha':[0.0001,0.0009,0.001,0.002,0.003,0.01,0.1,1,10,100]}

>lasso=Lasso()
>lasso_reg=GridSearchCV(lasso,param_grid=parameters,scoring='neg_mean_squared_error', cv=15)
>lasso_reg.fit(x_train,y_train)

>print('The best value of Alpha is: ',lasso_reg.best_params_)

GridSearchCV的各参数解释如下：

GridSearchCV(
estimator, #估计器，即模型
param_grid, #参数网格
scoring=None, #评分方法
n_jobs=None, #并行的作业数，不常用
refit=True, 是否refit最优参数的estimator
cv=None, 设定几折交叉验证，None的话采用5折交叉验证
verbose=0, 是否显示处理过程的信息，数值越高，信息越多
pre_dispatch=‘2*n_jobs’, 控制并行期间分派的作业数量执行。减少这个数字可以有效地避免分配更多作业时内存消耗激增，比cpu能处理的还要多。
error_score=np.nan, 当错误发生时的评分
return_train_score=False 如果为“False”，“cv_results_”属性将不包括训练分数。计算训练分数是为了了解不同的参数设置如何影响过拟合/不拟合的权衡。然而，计算训练集上的分数可能会有很高的计算成本，并且不需要严格地选择能产生最佳泛化性能的参数。 )

最后我们可以通过lasso_reg.best_params_查看最好的参数。

温旧酒一壶~

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
机器学习6 --交叉验证和网格搜索

1、什么是交叉验证？就是将拿到的训练数据，分成训练集和验证集，比如将一份数据分成4份，其中一份作为验证集。然后经过4次测试，每次都更更换不同的验证集。即得到4次模型的结果，取平均值作为最终结果。2、为什么要做交叉验证？交叉验证的目的：为了让被评估的模型更加准确可信。问题：这个只是让被评估的模型更加准确可信，那么怎么选择或者调优参数呢？3、网格搜索网格搜索（Grid Search）名字非常大气，但是用简答的话来说就是你手动的给出一个模型中你想要改动的所用的参数，程序自动的帮你使
复制链接

扫一扫