机器学习实战k-邻近算法(kNN)简单实施代码解读

最新推荐文章于 2023-10-09 15:23:41 发布

SCUT_Arucee

最新推荐文章于 2023-10-09 15:23:41 发布

阅读量3k

点赞数 5

分类专栏： python 机器学习文章标签：机器学习 python k邻近 kNN

本文链接：https://blog.csdn.net/SCUT_Arucee/article/details/50014817

版权

本文介绍了k-邻近算法的基本概念，提供了一个简单的kNN算法Python实现。通过创建数据集、计算欧氏距离并进行分类，展示了如何利用kNN进行样本分类。同时，文章解释了代码中关键步骤的逻辑，包括数据处理、距离计算和类别统计。

摘要由CSDN通过智能技术生成

一.概念

k-邻近算法是最简单的机器学习算法之一。

k-邻近算法采用测量不同特征值之间的距离（具体说是欧氏距离）的方法进行分类。

输入待分类的数据后，计算输入特征与样本集数据对应特征的距离，选择样本集中与输入特征距离最小的前k个样本，统计这k个样本数据中出现次数最多的类别作为新数据的分类。

二.kNN的简单实施代码及注释

from numpy import *
import operator

def creatDataSet():
    dataSet = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return dataSet,labels

def classify0(inX,dataSet,labels,k):

    #求出样本集的行数，也就是labels标签的数目
    dataSetSize = dataSet.shape[0]

    #构造输入值和样本集的差值矩阵
    diffMat = tile(inX,(dataSetSize,1)) - dataSet

    #计算欧式距离
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5

    #求距离从小到大排序的序号
    sortedDistIndicies = distances.argsort()

    #对距离最小的k个点统计对应的样本标签
    classCount = {}
    for i in range(k):
        #取第i+1邻近的样本对应的类别标签
        voteIlabel = labels[sortedDistIndicies[i]]
        #以标签为key，标签出现的次数为value将统计到的标签及出现次数写进字典
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    #对字典按value从大到小排序
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)

    #返回排序后字典中最大value对应的key
    return sortedClassCount[0][0]

三.详细解读

这里创建的是一个名为kNN.py的模块。

首先导入了两个模块，一个是科学计算包numpy，另一个是运算符模块，书中有提到。

接着是一个创建数据集的无参函数creatDataSet()，一共4个样本，每个样本有2个特征和1个分类标签。特征集以4*2的数组形式表示，类别标签集以列表的形式表示。

接下来是一个有4个参数的分类函数classify0(inX,dataSet,labels,k)：
inX表示待分类的输入特征向量，
dataSet为样本集的特征，
labels为样本集对应每一个样本的分类标签，
k为选择最近距离的样本的数目。
其中dataSet和labels由creatDataSet()函数返回。

$\bigstar$ dataSetSize = dataSet.shape[0]
求出样本集的行数，即样本个数，也是分类标签labels列表里元素的个数。

shape用于返回一个矩阵或数组的大小，返回的是一个元组，即（行数，列数）。如下：

>>> import kNN
>>> dataSet,labels=kNN.creatDataSet()
>>> dataSet.shape
(4, 2)
>>> dataSet
array([[ 1. ,  1.1],
       [ 1. ,  1. ],
       [ 0. ,  0. ],
       [ 0. ,  0.1]])
>>> dataSet.shape
(4, 2)
>>> dataSet.shape[0]
4
>>> dataSet.shape[1]
2
>>> type(dataSet.shape)
<class 'tuple'>