分类（三）—— k近邻算法

最新推荐文章于 2023-02-07 11:28:27 发布

shi_jiaye

最新推荐文章于 2023-02-07 11:28:27 发布

阅读量831

点赞数 1

分类专栏： python机器学习与数据挖掘文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/shi_jiaye/article/details/119796792

版权

python机器学习与数据挖掘专栏收录该内容

43 篇文章 58 订阅

订阅专栏

主要内容
分类概述
 决策树归纳
 K近邻算法
 支持向量机
 朴素贝叶斯分类
 模型评估与选择
 组合分类
 小结

三、K近邻算法

K近邻（k-Nearest Neighbor Classification，KNN）算法是机器学习算法中最基础、最简单的算法之一，属于惰性学习法。

算法原理

KNN算法基于类比学习，即通过将给定的检验元组与和它相似的元组进行比较来学习。训练元组用n个属性描述，每个元组代表n维空间的一个点。所有的训练元组都存放在n维模式空间中。
当给定一个未知元组时，KNN搜索模式空间，根据距离函数计算待分类样本X和每个训练样本的距离（作为相似度），选择与待分类样本距离最小的K个样本作为X的K个最近邻，最后以X的K个最近邻中的大多数样本所属的类别作为X的类别。

如图7-4所示，有方块和三角形两类数据，它们分布在二维特征空间中。假设有一个新数据（圆点）需要预测其所属的类别，根据“物以类聚”，可以找到离圆点最近的几个点，以它们中的大多数点的类别决定新数据所属的类别。如果k = 3，由于圆点近邻的3个样本中，三角形占比2/3，则认为新数据属于三角形类别。同理，k = 5，则新数据属于正方形类别。
在这里插入图片描述
如何度量样本之间的距离（或相似度）是KNN算法的关键步骤之一。
常见的数值属性的相似度度量方法包括：

闵可夫斯基距离（当参数p = 2时为欧几里得距离，参数p = 1时为曼哈顿距离）余弦相似度、皮尔逊相似系数、汉明距离、杰卡德相似系数等。
在计算距离之前，需要把每个属性的值规范化。

对于算法中的K值，一般通过实验确定。
K-最近邻算法是一种非参数模型。

在这里插入图片描述
优点：
1.算法思路较为简单，易于实现；
2.当有新样本要加入训练集中时，无需重新训练（即重新训练的代价低）；
3.计算时间和空间线性于训练集的规模，对某些问题而言这是可行的。

缺点：
1.分类速度慢。
2.各属性的权重相同，影响准确率。
3.样本库容量依赖性较强.
4.K值不好确定。

python算法实现

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data[:,:2]
Y = iris.target
print(iris.feature_names)
cmap_light = ListedColormap(['#FFAAAA','#AAFFAA','#AAAAFF'])
cmap_bold = ListedColormap(['#FF0000','#00FF00','#0000FF'])
clf = KNeighborsClassifier(n_neighbors = 10,weights = 'uniform')
clf.fit(X,Y)
# 画出决策边界
x_min,x_max = X[:,0].min()-1,X[:,0].max()+1
y_min,y_max = X[:,1].min()-1,X[:,1].max()+1
xx,yy = np.meshgrid(np.arange(x_min,x_max,0.02),
                   np.arange(y_min,y_max,0.02))
Z = clf.predict(np.c_[xx.ravel(),yy.ravel()]).reshape(xx.shape)
plt.figure()
plt.pcolormesh(xx,yy,Z,cmap = cmap_light)
# 绘制预测结果图
plt.scatter(X[:,0],X[:,1],c = Y,cmap = cmap_bold)
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
plt.title('3_Class(k = 10,weights = uniform)')
plt.show()

# ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']