KNN算法搜索最优超参数：n_neighbors/weights/p

本文链接：https://blog.csdn.net/m0_56051805/article/details/128360373

一：遍历参数超参调优测试

1.1 超参调试，找到模型最优解[仅做测试，得出最优：n_neighbors, weights, p，即可删除此测试代码]

# 超参调试 -- 找出对这个模型最优秀的解:k weight p
best_k = -1  # 区间 数据集长度开平方
best_w = 0  # list['uniform','distance']
best_p = -1  # 表示求和的次方数  8
Weight = ['uniform', 'distance']
best_score = 0  # 模型最高评分
for k in range(1, 13):  # 1-12
    for p in range(1, 7):  # 1-6
        for w in Weight:  # 2
            knn_model = KNeighborsClassifier(n_neighbors=k, p=p, weights=w)
            knn_model.fit(X_train, y_train)
            score = knn_model.score(X_test, y_test)
            if score > best_score:
                best_score = score
                best_k = k
                best_w = w
                best_p = p
print("best_score", best_score, "best_k", best_k, "best_w", best_w, "best_p", best_p)

输出结果如下

best_score 1.0 best_k 5 best_w uniform best_p 4

1.2 KNeighborsClassifier，参数最优：n_neighbors=5, weights='uniform', p=4

如下代入

# 创建算法
knn_model = KNeighborsClassifier(n_neighbors=5, weights='uniform', p=4)

由最优参数，输出的模型预测结果，也是最优结果，如下

1.0
[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True]

1.3 完整源码分享，鸢尾花模型预测

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# 加载数据  鸢尾花load_iris
iris_datasets = load_iris()
# 特征数据
iris_data = iris_datasets['data']
# 标签数据
iris_target = iris_datasets['target']
# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_target, test_size=0.3, random_state=6)
# 选择算法 -- 有监督的分类问题
# KNN K近邻算法(近朱者赤近墨者黑)
# 创建算法
knn_model = KNeighborsClassifier(n_neighbors=5, weights='uniform', p=4)
# 构建基于训练集的模型
knn_model.fit(X_train, y_train)
# 模型评分
score = knn_model.score(X_test, y_test)
print(score)
# 模型预测
predict_y = knn_model.predict(X_test)
print(predict_y == y_test)

1.0
[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True]

二：网格模型超参调优测试

模型调优-交叉验证

将数据训练数据分为多个数据模块，然后循环地从这些数据块中取出训练集和测试集，来进行模型测试/验证

网格模型，超参调优测试

from sklearn.model_selection import train_test_split, GridSearchCV

# 网格模型 参数测试--求最优解 k weight p
knn_model = KNeighborsClassifier()
param_list = [
    {
        "n_neighbors": list(range(1, 13)),
        "p": [i for i in range(1, 9)],
        "weights": ['uniform', 'distance']
    }
]
# 网格化 超参调试
grid = GridSearchCV(knn_model, param_list, cv=4)
grid.fit(X_train, y_train)
print(grid.best_score_)
print(grid.best_params_)
print(grid.best_estimator_)

输出结果如下，

参数最优：n_neighbors=12, weights='uniform', p=2

注：KNeighborsClassifier输出结果中参数少了p，为默认p值2，因此没有输出

0.9807692307692308
{'n_neighbors': 12, 'p': 2, 'weights': 'distance'}
KNeighborsClassifier(n_neighbors=12, weights='distance')

三：模型保存

import joblib

# 模型保存
joblib.dump(value=best_model, filename="knnModelIris.model")

四：模型使用

再新建一个.py编写程序，使用模型

import numpy as np
from sklearn.datasets import load_iris
# 使用已经保存好的模型来进行预测
import joblib

# 1 加载模型
model = joblib.load("knnModelIris.model")
# 2 测试集准备
feature = np.array([
    [4.6, 3.1, 1.5, 0.2],  # 0
    [5.1, 3.6, 1.4, 0.3],  # 0
    [6., 2.9, 5.5, 1.5],  # 2
    [6.6, 3.1, 4.4, 1.4],  # 1
    [6.7, 2.8, 4.5, 1.4]  # 1
])
y_predict = model.predict(feature)
print(y_predict)