机器学习（二）KNN（K-近邻）算法

最新推荐文章于 2021-05-14 19:11:03 发布

置顶

Melody_my

最新推荐文章于 2021-05-14 19:11:03 发布

阅读量280

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Melody_my/article/details/103709409

版权

KNN（K-近邻）算法是一种基于监督学习的聚类方法，通过测量特征空间中样本间的距离进行分类。算法效果受k值影响，选择最近的k个邻居，多数类别决定样本归属。在KNN中常用欧式距离或曼哈顿距离作为相似性指标。算法步骤包括计算距离、排序、选取k个最近点、确定类别频率和预测类别。Python实现中，sklearn库可用于手写数字识别系统的KNN算法。

摘要由CSDN通过智能技术生成

所属类别：
监督学习之聚类算法
原理：
KNN是通过测量不同特征值之间的距离进行分类。即，如果一个样本在特征空间中的k个最相似（最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。其中 $k$ 通常是不大于20的整数。
例子：
在这里插入图片描述
在如上图形中，要求判断绿色的园应当被划分到哪个类别。
如果k=3，即根据与绿色园最近邻的三个形状来划分它的所属类别。由于与其最近邻的三个图形中红色三角形所占比例为2/3，蓝色正方形所占比例为1/3，故绿色园应当被划分到红色三角形的那一类中去。
如果k=5，即根据与绿色园最近邻的五个形状来划分它的所属类别。由于与其最近邻的五个图形中红色三角形所占比例为2/5，蓝色正方形所占比例为3/5，故绿色园应当被划分到蓝色正方形的那一类中去。
由此可见，KNN算法的结果很大成都取决于k的取值。
在KNN中，常用对象之间的距离作为各个对象之间的非相似性指标。其中的距离一般使用欧式距离或者曼哈顿距离：
在这里插入图片描述
算法步骤：
1.计算测试数据与其它各个训练数据之间的距离。
2.按照距离递增关系进行排序。
3.选取距离最小的k个点。
4.确定前k个点所在类别的出现频率。
5.返回前k个点中出现频率最高的类别作为测试数据的预测类别。
python实现：

import numpy as np
import operator

#创建数据集
def createDataSet():
    # 四组二维特征
    group=np.array([[1.0,2.0],[1.3,0.2],[0.2,1.3],[0.3,3.4]])
    # 四组特征的标签
    labels=['a','a','b','b']
    return group,labels

# kNN算法,分类器
def classify(inX,dataSet,labels,k):
    # numpy函数shape[0]返回dataSet的行数
    dataSetSize = dataSet.shape