机器学习实战-k近邻的概述与实现

算法描述如下:

1)计算已知类别数据集中的点与当前点之间的距离;

2)按照距离递增次序排序;

3)选取与当前点距离最小的k个点;

4)确定前k个点所在类别的出现频率;

5)返回前k个点出现频率最高的类别作为当前点的预测分类。

书中有代码,只是注释给的太少,故提一下用到的几个函数,输出一下中间结果便于理解

      

#手动创建数据,最简单的knn
import numpy as np
import operator
def createDataSet():
    group=np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    #对应的类别
    labels=['A','A','B','B']
    return group,labels

#实现k近邻算法
#输入inX,输出判断出的它的类别
def classify0(inX,dataSet,labels,k):
    #取到行数
    data_size=dataSet.shape[0]
    #做差
    #tile(inX,(a,b))表示inX在行方向复制a次,列方向上复制b次,b=1就表示保持不动
    tmp=np.tile(inX,(data_size,1))
    print 'tile后的结果为'
    print tmp
    delta=np.tile(inX,(data_size,1))-dataSet
    print '做差的结果为'
    print delta
    #平方
    square=delta**2
    print '平方的结果为'
    print square
    #每一行求和
    square_sum=square.sum(axis=1)
    print '求和的结果为'
    print square_sum
    #开方求得距离
    distances=square_sum**0.5
    print '最终的距离为'
    print distances
    #argsort函数:按元素从小到大,取其对应下标
    #x=np.array([1,4,3,-1,6,9]),x.argsort()返回的结果是[3,0,2,1,4,5],最小的元素下标为3....
    sorted_index=distances.argsort()
    #创建一个字典,存取类别到出现次数的映射,'A':5即表示前k个中有5个A类的事物
    class_count={}
    for i in range(k):
        #取到对应的label
        tmp_label=labels[sorted_index[i]]
        #进行计数
        class_count[tmp_label]=class_count.get(tmp_label,0)+1
    #按照出现次数,从大到小排序
    sorted_class_count=sorted(class_count.iteritems(),key=operator.itemgetter(1),reverse=True)
    print '排序后:'
    print sorted_class_count
    #返回出现次数最多的那个类别
    return sorted_class_count[0][0]

#开始测试
group,labels=createDataSet()
print group
print labels

[[ 1.   1.1]
 [ 1.   1. ]
 [ 0.   0. ]
 [ 0.   0.1]]
['A', 'A', 'B', 'B']
#输入数据进行测试
classify0([0,0],group,labels,3)

tile后的结果为
[[0 0]
 [0 0]
 [0 0]
 [0 0]]
做差的结果为
[[-1.  -1.1]
 [-1.  -1. ]
 [ 0.   0. ]
 [ 0.  -0.1]]
平方的结果为
[[ 1.    1.21]
 [ 1.    1.  ]
 [ 0.    0.  ]
 [ 0.    0.01]]
求和的结果为
[ 2.21  2.    0.    0.01]
最终的距离为
[ 1.48660687  1.41421356  0.          0.1       ]
排序后:
[('B', 2), ('A', 1)]
'B'


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值