交叉验证和网格搜索

最新推荐文章于 2024-04-25 22:28:24 发布

永不落后于人

最新推荐文章于 2024-04-25 22:28:24 发布

阅读量2.5k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/FlatTiger/article/details/111170574

版权

机器学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

本文介绍了如何结合交叉验证和网格搜索来解决超参数选择问题，以提高KNN算法的性能。通过设置不同的n_neighbors值，利用GridSearchCV进行5折交叉验证，寻找最优超参数组合。最终，展示如何评估测试集的精确率，并获取最优模型的超参数、模型本身以及最佳评估分数。

摘要由CSDN通过智能技术生成

交叉验证和网格搜索一般结合使用，用来解决超参的选择问题。超参指定就是算法模型中需要手动指定的参数，比如KNN算法中的n_neighbors。
网格搜索指的就是，预设几组超参组合，每组都是用交叉验证的方式进行评估，选择最优的超参组合建立模型。

交叉验证原理：

在这里插入图片描述

将所有数据集分成5份。
不重复地每次取其中1份做验证集，其他4份做训练集来训练模型，之后计算该模型在验证集上的MSE(均方误差)。
将5次的MSE取平均得到最后的MSE。
像上面这样分5次验证的方式，又称为5（K）折交叉验证。

代码使用

from sklearn.model_selection import GridSearchCV

kn = KNeighborsClassifier()
# 网格搜索
param = {'n_neighbors': [3, 5, 9, 11]}
gc = GridSearchCV(estimator=kn, param_grid=param, cv=5)
gc.fit(x_train, y_train)
y_predict = gc.predict(x_test)
print('测试集精确率：', gc.score(x_test, y_test))
print('最优超参为：', gc.best_params_)
print('最优模型为：', gc.best_estimator_)
print('最优评估为：', gc.best_score_)
print('每个超参每次交叉验证的结果：', gc.cv_results_)

estimator：指定模型实例。
param_grid：字典类型的超参列表。
cv：指定几折交叉验证。
fit：训练数据。
score：测试集准确率。
best_params_：最优超参。
best_estimator_：最优模型。
best_score_：最优评估分数。
cv_results_：每组超参每次交叉验证的结果。

永不落后于人

关注

0
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
交叉验证和网格搜索

之前我们训练模型的做法：整个数据集分成两部分，一部分用于训练，一部分用于验证，训练集（training set）和测试集（test set）。训练集和测试集的划分方法不够好，可能不能找到最好的模型与参数。训练的数据量越大，训练出来的模型通常越好。原理：将所有数据集分成5份不重复地每次取其中1份做测试集，其他4做训练集训练模型，之后计算该模型在测试集上的MSE将5次的MSE取平均得到最后的MSE...
复制链接

扫一扫

专栏目录