机器学习——KNN算法

最新推荐文章于 2024-09-07 22:28:34 发布

l10020823

最新推荐文章于 2024-09-07 22:28:34 发布

阅读量288

点赞数

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/l10020823/article/details/134268311

版权

一、knn算法概述

KNN 算法，或者称 k-最近邻算法，是 有监督学习 中的 分类算法 。它可以用于分类或回归问题，但它通常用作分类算法。

KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时，一般是选择多数表决法，即训练集里和预测的样本特征最近的K个样本，预测为里面有最多类别数的类别。而KNN做回归时，一般是选择平均法，即最近的K个样本的样本输出的平均值作为回归预测值。

二、knn算法原理

1、KNN（K-Nearest Neighbor）工作原理：

存在一个样本数据集合，也称为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后，将新数据中的每个特征与样本集中数据对应的特征进行比较，提取出样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k近邻算法中k的出处，通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。

2.实例

图中绿色的点是待预测点，假设 K=3。那么 KNN 算法就会找到与它距离最近的三个点（这里用圆圈把它圈起来了），然后看这三个点中哪种类别多一些，比如这个例子中是蓝色三角形多一些，新来的绿色点就被归类到蓝三角了。

但是，当 K=5 的时候，判定就变得不一样了。这次变成红圆多一些，所以新来的绿点被归类成红圆。从这个例子中，我们就能看得出 k 值的确定对KNN算法的预测结果有着至关重要的影响。

k值的影响：

如果k值比较小，相当于我们用较小的领域内的训练样本对实例进行预测。这时，算法的近似误差（Approximate Error）会比较小，因为只有与输入实例相近的训练样本才会对预测结果起作用。但是，它也有明显的缺点：算法的估计误差比较大，预测结果会对近邻点十分敏感，也就是说，如果近邻点是噪声点的话，预测就会出错。因此，k值过小容易导致KNN算法的过拟合。

同理，如果k值选择较大的话，距离较远的训练样本也能够对实例预测结果产生影响。这时候，模型相对比较鲁棒，不会因为个别噪声点对最终预测结果产生影响。但是缺点也十分明显：算法的近邻误差会偏大，距离较远的点（与预测实例不相似）也会同样对预测结果产生影响，使得预测结果产生较大偏差，此时模型容易发生欠拟合。

三、实现

1、KNN算法实现的一般流程：

1）计算测试数据与各个训练数据之间的距离；
2）按照距离的递增关系进行排序；
3）选取距离最小的K个点；
4）确定前K个点所在类别的出现频率；
5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

2 利用sklearn中KNN算法实现鸢尾花分类

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
def get_iris_data():
iris = load_iris()
iris_data = iris.data
iris_target = iris.target
return iris_data,iris_target
def run():
iris_data, iris_target = get_iris_data()
# 分割验证集和测试集
x_train,x_test,y_train,y_test=train_test_split(iris_data,iris_target,test_size=0.25)
# 归一化处理
std=StandardScaler()
x_train=std.fit_transform(x_train)
x_test=std.transform(x_test)
knn=KNeighborsClassifier(n_neighbors=5)
knn.fit(x_train,y_train)
y_predict=knn.predict(x_test)
print(y_predict)
labels = ["山鸢尾", "虹膜锦葵", "变色鸢尾"]
for i in range(len(y_predict)):
print("第%d次测试:真实值:%s\t预测值:%s" % ((i + 1), labels[y_predict[i]], labels[y_test[i]]))
print("准确率：", knn.score(x_test, y_test))

四、总结

1、优缺点

优点：

1.简单易用，相比其他算法，KNN算是比较简洁明了。

2.即使没有很高的数学基础也能搞清楚它的原理。

3.预测效果好。对异常值不敏感

缺点：

在很多情况下并不适用，包括样本极端不平衡、样本数目过多、样本数目过少、样本维度非常高等等。
K值的选取不合适可能会影响算法的准确性。
需要大量的存储空间来存储训练集。
算法的运行时间较长，特别是当数据集非常大时。

l10020823

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习——KNN算法

KNN 算法，或者称 k-最近邻算法，是有监督学习中的分类算法。它可以用于分类或回归问题，但它通常用作分类算法。KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时，一般是选择多数表决法，即训练集里和预测的样本特征最近的K个样本，预测为里面有最多类别数的类别。而KNN做回归时，一般是选择平均法，即最近的K个样本的样本输出的平均值作为回归预测值。1、优缺点优点：1.简单易用，相比其他算法，KNN算是比较简洁明了。2.即使没有很高的数学基础也能搞清楚它的原理。
复制链接

扫一扫