【机器学习】分类算法 - 模型选择与调优GridSearchCV（网格搜索）

最新推荐文章于 2024-07-18 17:28:15 发布

2401_84520332

最新推荐文章于 2024-07-18 17:28:15 发布

阅读量1.3k

点赞数 26

分类专栏：程序员文章标签：网络安全学习面试

本文链接：https://blog.csdn.net/2401_84520332/article/details/138793581

版权

程序员专栏收录该内容

176 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2、网格搜索

网格搜索也叫超「参数搜索」，比如K-近邻算法的K值需要手动指定参数，这种参数就叫超参数。网格搜索通过预设几组超参数组合，每组超参数都用交叉验证进行评估，从而选出「最优」的参数组合来建立模型。

sklearn 模块 GridSearchCV 很好的实现了网格搜索，它可以自动调参，只要把参数输进去，就能给出最优的结果和参数。

3、模型选择与调优API

sklearn.model_selection.GridSearchCV( estimator，param_grid，cv)

estimator：需要使用的分类器
param_grid：需要优化的参数，字典或列表格式{ "n_neighbors": [1, 3, 5] , }
cv：交叉验证次数

返回值属性

best_params_：（dict）最佳参数
best_score_ ：（float）最佳结果
best_estimator_：（estimator）最佳分类器
cv_results_：（dict）交叉验证结果
best_index_：（int）最佳参数的索引
n_splits_：（int）交叉验证的次数

4、案例演示

接下来，我们使用 GridSearchCV 来选择 K-近邻算法的「最佳K值」

4.1、特征集获取划分

使用 sklearn 自带的的鸢尾花「数据集」，数据集划分为60%训练，40%测试。

from sklearn import datasets
from sklearn import model_selection

# 1、获取数据集
iris = datasets.load_iris()
# 2、划分数据集
# x\_train：训练集特征，x\_test：测试集特征，y\_train：训练集目标，y\_test：测试集目标
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, random_state=6)
print('训练集特征：', len(x_train))
print('测试集特征：', len(x_test))
print('训练集目标：', len(y_train))
print('测试集特征：', len(y_test))

输出：

训练集特征： 112
测试集特征： 38
训练集目标： 112
测试集特征： 38

从输出结果可以看到，训练集和测试集的比例符合预期

4.2、特征标准化

接下来，对训练集特征和测试集特征进行「标准化」处理

from sklearn import datasets
from sklearn import model_selection
from sklearn import preprocessing

# 1、获取数据集
iris = datasets.load_iris()
# 2、划分数据集
# x\_train：训练集特征，x\_test：测试集特征，y\_train：训练集目标，y\_test：测试集目标
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, random_state=6)
# 3、特征标准化
ss = preprocessing.StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.fit_transform(x_test)
print(x_train)

输出：

[[-0.18295405 -0.192639    0.25280554 -0.00578113]
 [-1.02176094  0.51091214 -1.32647368 -1.30075363]
 [-0.90193138  0.97994624 -1.32647368 -1.17125638]

从输出结果可以看到，特征已经标准化。

4.3、KNN算法处理

将训练特征集和测试特征集传给KNN，并查看「准确率」。

from sklearn import datasets
from sklearn import model_selection
from sklearn import preprocessing
from sklearn import neighbors

# 1、获取数据集
iris = datasets.load_iris()
# 2、划分数据集
# x\_train：训练集特征，x\_test：测试集特征，y\_train：训练集目标，y\_test：测试集目标
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, random_state=6)
# 3、特征标准化
ss = preprocessing.StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.fit_transform(x_test)
# 4、KNN算法处理
knn = neighbors.KNeighborsClassifier(n_neighbors=2)
knn.fit(x_train, y_train)
print(knn.score(x_test, y_test))

输出：