KNN详解

最新推荐文章于 2023-12-25 08:16:58 发布

VIP文章 AndrewZhou924

最新推荐文章于 2023-12-25 08:16:58 发布

阅读量696

点赞数

分类专栏：机器学习文章标签： KNN 机器学习

本文链接：https://blog.csdn.net/torres_10/article/details/82703922

版权

KNN算法，又称K-近邻算法

简单来说，KNN采用测量不同特征值之间的距离来进行分类

优点：精度高，对异常值不敏感，无数据输入假定
缺点：计算复杂度高，空间复杂度高
适用数据范围：数值型和标称型

kNN算法的核心思想

如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

KNN算法的一般流程

收集数据：可以使用任何方法
准备数据：距离计算所需要的数值，最好是结构化的数据格式
分析数据：可以使用任何方法
测试算法：计算错误率
使用算法：首先需要输入样本数据和结构化的输出结果，然后运行KNN算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理

以下是机器学习实战里面的源码，如需运行，需要下载数据集，并改动本地路径

from numpy import *
import operator #运算符模块
from os import listdir


def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

# inX: input vector
#   k: the number of the nearest data
def classify0(inX, dataSet, labels, k):

    #calculate the distance
    dataSetSize = dataSet.shape[0]  #group.shape[0]==4
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5

    #select the most nearest k data
    sortedDistIndicies = distances.argsort()
    classCount={}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = cl

最低0.47元/天解锁文章

AndrewZhou924

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
KNN详解

KNN算法，又称K-近邻算法简单来说，KNN采用测量不同特征值之间的距离来进行分类优点：精度高，对异常值不敏感，无数据输入假定缺点：计算复杂度高，空间复杂度高适用数据范围：数值型和标称型 kNN算法的核心思想如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻...
复制链接

扫一扫