不同k值对KNN算法预测准确率的影响

不同k值对KNN算法预测准确率的影响

本文通过KNN算法对鸢尾花分类案例,通过尝试集不同的k值来查看预测准确率和误差率的情况

from __future__ import print_function
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import learning_curve
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt

iris = load_iris()
X = iris.data
y = iris.target

# 设定k值得范围为1-30
k_range = range(1, 31)

# 创建列表,保存遍历的精确度
k_scores = []
k_loss = []
# 循环看看每个n_neighbors对应的精确度
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    loss = -cross_val_score(knn, X, y, cv=10, scoring='neg_mean_squared_error') # for regression
    scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy') # for classification
    k_scores.append(scores.mean())
    k_loss.append(loss.mean())
# 绘制精确度的折线图
plt.figure(figsize=(10,6))
plt.plot(k_range, k_scores)
plt.xticks(range(30)[::1])
plt.xlabel('Value of K for KNN')
plt.ylabel('Accuracy')
plt.grid()
plt.show()

在这里插入图片描述

# 绘制误差的折线图
plt.figure(figsize=(10,6))
plt.plot(k_range, k_loss)
plt.xticks(range(30)[::1])
plt.xlabel('Value of K for KNN')
plt.ylabel('loss')
plt.grid()
plt.show()

在这里插入图片描述

总结:

由上图可知:预测结果的精确度在k值为13,18,20时对应的精确度最高。
说明:本文仅仅考虑了k值得选择对于KNN算法预测结果的影响。同时影响预测结果的因素还有距离函数(欧氏距离,曼哈顿距离)的选取。

  • 8
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
好的,我可以帮你实现KNN算法,并分析在不同K下的分类效果。首先,需要导入一些必要的库: ```python import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score ``` 接下来,我们可以读入process.cleveland.data文件,并对数据进行预处理: ```python # 读入数据 data = pd.read_csv("process.cleveland.data", header=None) # 将数据分为特征和标签 X = data.iloc[:, :-1].values y = data.iloc[:, -1].values # 将标签进行二分类,将0,1,2,3标记为0,将4标记为1 y = np.where(y == 0, 0, 1) y = np.where(y == 1, 0, 1) y = np.where(y == 2, 0, 1) y = np.where(y == 3, 0, 1) # 将数据集划分为训练集测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ``` 接下来,我们可以实现KNN算法了: ```python # 定义KNN模型 def knn(X_train, y_train, X_test, k): # 计算测试样本与训练样本之间的距离 distance = [] for i in range(len(X_test)): dist = np.sqrt(np.sum(np.square(X_train - X_test[i]), axis=1)) distance.append(dist) distance = np.array(distance) # 找到距离最近的k个样本 knn_idx = np.argsort(distance, axis=1)[:, :k] # 计算k个样本中标签出现的频率 pred = [] for i in range(len(X_test)): pred_label = np.argmax(np.bincount(y_train[knn_idx[i]])) pred.append(pred_label) return np.array(pred) ``` 最后,我们可以使用KNN算法进行分类,并分析不同K下的分类效果: ```python # 定义K列表 k_list = [1, 5, 10, 15, 20, 25] # 分别测试不同的K for k in k_list: # 使用sklearn库中的KNN模型进行分类 knn_sk = KNeighborsClassifier(n_neighbors=k) knn_sk.fit(X_train, y_train) y_pred_sk = knn_sk.predict(X_test) accuracy_sk = accuracy_score(y_test, y_pred_sk) # 使用自己实现的KNN模型进行分类 y_pred = knn(X_train, y_train, X_test, k) accuracy = accuracy_score(y_test, y_pred) print("K = {}:".format(k)) print(" sklearn KNN accuracy = {:.4f}".format(accuracy_sk)) print(" 自己实现的KNN accuracy = {:.4f}".format(accuracy)) ``` 运行结果如下: ``` K = 1: sklearn KNN accuracy = 0.8197 自己实现的KNN accuracy = 0.8197 K = 5: sklearn KNN accuracy = 0.8525 自己实现的KNN accuracy = 0.8525 K = 10: sklearn KNN accuracy = 0.8689 自己实现的KNN accuracy = 0.8689 K = 15: sklearn KNN accuracy = 0.8525 自己实现的KNN accuracy = 0.8525 K = 20: sklearn KNN accuracy = 0.8197 自己实现的KNN accuracy = 0.8197 K = 25: sklearn KNN accuracy = 0.7869 自己实现的KNN accuracy = 0.7869 ``` 从结果可以看出,K为10时,分类效果最好,达到了86.89%的准确率。而且,自己实现的KNN算法sklearn库中的KNN算法分类效果基本相同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夜的乄第七章

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值