机器学习-----k-近邻算法

  • 计算已知类别数据集中的每个点与当前点之间的距离;
  • 按照距离递增次序排序;
  • 选取与当前距离最小的k个点;
  • 确定前k个点所在类别的出现频率;
  • 返回前k个点出现频率最高的类别作为当前点的预测分类;

python实现:

from numpy import *   
import operator      #operator是运算符模块,定义训练集
def createDataSet():  
    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels=['A','A','B','B']
    return group,labels
def classify0(inX,dataSet,labels,k):         #inX是当前点的x值,dataSet是训练样本,labels为标签向量
    dataSetsize = dataSet.shape[0]         #dataSetsize为训练样本的个数
    diffMat=tile(inX,(dataSetSize,1))-dataSet      #tile(a,(b,c))将a在行方向重复c次,列重复d次,生成一组和训练样本维度一样的数组
    sqDiffMat=diffMat**2                    #对应位置分别平方
    sqDistance=sqDiffMat.sum(axis=1)          #列相加
    distance=sqDistance**0.5                #计算出来每个样本与当前点之间的o欧式距离
    sortedDistances=sqDistances.argsort()   #argsort函数将sqDistance从小到大排序输出索引号
    classCount={}                            #用于储存不同标签出现的次数
    for i in range(k):                       #对前k个样本进行便利
        voteIlabel=labels[sortedDistIndicies[i]] #索引对应的标签
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1#查询字典中有没有该标签值如果没有0,第一次生成的字典为{voteIlabel:1}
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
#items函数将字典拆成列表形式无序如{‘A’:1}=[('A',1)]
#operator.itemgetter函数获取的不是值,而是定义了一个函数,通过该函数作用到对象上才能获取值,按照元组内第二个值将数目从小到大排序
#如结果Out[214]: [('B', 3), ('A', 2)]
    return sortedClassCount[0][0]                 #返回第一个元组的第一个值



  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值