（1）k-近邻算法（分类器）

最新推荐文章于 2018-12-29 22:44:50 发布

sn_G_e_n_i_u_s_

最新推荐文章于 2018-12-29 22:44:50 发布

阅读量370

点赞数

分类专栏：机器学习实战——学习笔记

本文链接：https://blog.csdn.net/sn_G_e_n_i_u_s_/article/details/81142591

版权

机器学习实战——学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

使用Python3.6.3

from numpy import *
import operator
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels
#group,labels=createDataSet()
#print(group,labels)

def classify0(inX,dataSet,labels,k):
    # inX 是输入向量（判断他属于哪个分类），dataSet是上面的group（即训练样本集），labels是标签向量（训练样本对应的标签），k是kNN中选取的距离最近的数目
    dataSetSize = dataSet.shape[0] #dataSetSize是数组的元素个数（即几个训练样本）
    diffMat = tile(inX,(dataSetSize,1)) - dataSet # 将inX重复四次和dataSet保持同样格式，再相减
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis = 1)#按行相加
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()#排序，按元素从小到大的顺序返回其下标；如[6，1,3]返回[1,2,0]
    classCount={} # 数据类型为字典，key:value 如{ '姓名'：'小明'，'年龄'：14 }
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]] # votaIlabek表示标签
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 #get是取字典里的元素，如果之前这个voteIlabel是有的，那么就返回字典里这个voteIlabel里的值,如果没有就返回0
        #这行代码的意思就是算离目标点距离最近的k个点的类别，这个点是哪个类别哪个类别就加1
    sortedClassCount = sorted(classCount.iteritems(),
                              key = operator.itemgetter(1),reverse=True)#itemgetter是按照第二个元素的次序对元组进行排序；reverse=True表示按逆序进行排序
    return sortedClassCount[0][0]
a,b = createDataSet()
print(classify0([0,0],a,b,3))

'''line 57 书上代码是classCount.iteritems()运行出错,改为classCount.items()就正确了
原因是Python3.X已经把iteritems()废除了！'''

'''
def test():# 测试其中的操作是什么作用

    #可知，（4，1）中1是为了保证他重复四遍但是不在同一行
    a = [1,1]
    #重复4遍，后面的1保证重复完了是4行，而不是一行里有四个一样的
    print(tile(a,4))#[0 0 0 0 0 0 0 0]
    print(tile(a,(4,1)))
    #[[0 0]
    # [0 0]
    # [0 0]
    # [0 0]]

    b=tile(a,(4,1))
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    c=b-group
    print(c)
    d = c**2
    print(d)
    d1=d.sum(axis=1)
    print(d1)

    #argsort从小到大返回下标
    print(d1.argsort())


    #axis=0按列相加
    #axis=1按行相加
    e=sum([[1,1],[2,3]],axis=0)
    #print(e)#[3,4]
    f=sum([[1,1],[2,3]],axis=1)
    #print(f)#[2,5]
test()
'''

sn_G_e_n_i_u_s_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（1）k-近邻算法（分类器）

使用Python3.6.3from numpy import *import operatordef createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group,labels#group,labels=cre...
复制链接

扫一扫