【4】KNN算法

文章介绍了KNN算法的基本原理,包括欧氏距离和曼哈顿距离两种距离计算方法。在实际应用中,以鸢尾花数据集为例,展示了如何使用Python的sklearn库进行数据预处理(标准化)和模型训练。通过设置k值为3,训练并评估了KNN模型,最终输出了模型在测试集上的准确率。
摘要由CSDN通过智能技术生成

KNN算法

某一未知样本的类别是在特征空间里距离它最近的k个样本中,居于大多数的类别
计算两个样本 A ( a 1 , a 2 , a 3 ) A(a_1, a_2, a_3) A(a1,a2,a3), B ( b 1 , b 2 , b 3 ) B(b_1, b_2, b_3) B(b1,b2,b3)之间的距离,距离计算公式有多种,这里举出常用的两种:

  • 欧氏距离: d A B = ( a 1 − b 1 ) 2 + ( a 2 − b 2 ) 2 + ( a 3 − b 3 ) 2 d_{AB}=\sqrt{(a_1-b_1)^2+(a_2- b_2)^2+(a_3-b_3)^2} dAB=(a1b1)2+(a2b2)2+(a3b3)2
  • 曼哈顿距离: d A B = ∣ a 1 − b 1 ∣ + ∣ a 2 − b 2 ∣ + ∣ a 3 − b 3 ∣ d_{AB}=|a_1-b_1|+|a_2-b_2|+|a_3-b_3| dAB=a1b1+a2b2+a3b3

k k k值若太小,容易受到异常值的影响
k k k值若太大,容易受到样本数量分布的影响

在鸢尾花数据集上使用KNN算法

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler


# 获取数据
iris = load_iris()

# 划分数据集
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)

# 标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
# 使用训练集的标准差和平均值,因此这里用的是transform而不是fit_transform
x_test = transfer.transform(x_test)

# KNN调用
estimator = KNeighborsClassifier(n_neighbors=3)
estimator.fit(x_train, y_train)

# 模型评估
score = estimator.score(x_test, y_test)
print(score)

输出最后的准确率
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值