机器学习-----k-近邻算法

最新推荐文章于 2021-12-23 11:46:01 发布

世间一俗人

最新推荐文章于 2021-12-23 11:46:01 发布

阅读量107

点赞数 1

分类专栏： KNN算法文章标签：机器学习（KNN）

本文链接：https://blog.csdn.net/weixin_41640469/article/details/80114564

版权

KNN算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

计算已知类别数据集中的每个点与当前点之间的距离；
按照距离递增次序排序；
选取与当前距离最小的k个点；
确定前k个点所在类别的出现频率；
返回前k个点出现频率最高的类别作为当前点的预测分类；

python实现：

from numpy import *   
import operator      #operator是运算符模块，定义训练集
def createDataSet():  
    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels=['A','A','B','B']
    return group,labels

def classify0(inX,dataSet,labels,k):         #inX是当前点的x值，dataSet是训练样本，labels为标签向量

    dataSetsize = dataSet.shape[0]         #dataSetsize为训练样本的个数
    diffMat=tile(inX,(dataSetSize,1))-dataSet      #tile(a,(b,c))将a在行方向重复c次，列重复d次,生成一组和训练样本维度一样的数组
    sqDiffMat=diffMat**2                    #对应位置分别平方
    sqDistance=sqDiffMat.sum(axis=1)          #列相加
    distance=sqDistance**0.5                #计算出来每个样本与当前点之间的o欧式距离
    sortedDistances=sqDistances.argsort()   #argsort函数将sqDistance从小到大排序输出索引号
    classCount={}                            #用于储存不同标签出现的次数
    for i in range(k):                       #对前k个样本进行便利
        voteIlabel=labels[sortedDistIndicies[i]] #索引对应的标签
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1#查询字典中有没有该标签值如果没有0，第一次生成的字典为{voteIlabel:1}

    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)

#items函数将字典拆成列表形式无序如{‘A’：1}=[('A',1)]
#operator.itemgetter函数获取的不是值，而是定义了一个函数，通过该函数作用到对象上才能获取值，按照元组内第二个值将数目从小到大排序
#如结果Out[214]: [('B', 3), ('A', 2)]
    return sortedClassCount[0][0]                 #返回第一个元组的第一个值

世间一俗人

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习-----k-近邻算法

计算已知类别数据集中的每个点与当前点之间的距离；按照距离递增次序排序；选取与当前距离最小的k个点；确定前k个点所在类别的出现频率；返回前k个点出现频率最高的类别作为当前点的预测分类；python实现：from numpy import * import operator #operator是运算符模块，定义训练集def createDataSet(): group=a...
复制链接

扫一扫