菜鸟初学第二周之kNN分类算法

最新推荐文章于 2022-11-02 22:48:44 发布

鹿小闹

最新推荐文章于 2022-11-02 22:48:44 发布

阅读量194

点赞数

分类专栏： Study 文章标签： Python KNN

本文链接：https://blog.csdn.net/qq_36271653/article/details/81104745

版权

Study 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

时间：20180716-20180722

from numpy import *
import operator

def createDataSet():#给定4组数据
    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])#点的集合
    labels=['A','A','B','B']#点标签
    return group,labels
def classify(inX,dataSet,labels,k):#kNN算法：4个输入参数:{(分类输入向量,inX(分类坐标)),(输入训练样本集,dataSet（createDataSet的array,已经分类过的坐标）),(标签向量（分类标签）,labels),(最近邻居的数目,k)}
    dataSetSize=dataSet.shape[0] #dataSetSize是dataSet的行数  shape是用来取矩阵维度的长度的函数
    diffMat=tile(inX,(dataSetSize,1))-dataSet
    #diffMat得到了目标与训练数组的差值
    # tile函数是在numpy。lib。shape_base里的，作用是重复某个数组
    # 比如tile(A,n)，功能是将数组A重复n次，构成一个新的数组
    # 前面用tile，把一行inX变成4行一模一样的
    # tile有重复的功能，dataSetSize是重复4遍，后面的1保证重复完了是4行，而不是一行里有四个一样的
    # 然后再减去dataSet，是为了求两点的距离，先要坐标相减，这个就是坐标相减
    sqDiffMat=diffMat**2  #元素平方
    sqDistances=sqDiffMat.sum(axis=1)#axis=1是列相加，，这样得到了(x1-x2)^2+(y1-y2)^2
    distances=sqDistances**0.5 #开方求距离
    sortedDistances=distances.argsort()#升序排序，将元素按照由小到大的顺序返回下标，比如([3,1,2]),它返回的就是([1,2,0]
    classCount={}
    for i in range(k):#选择距离最小的k个点
        voteIlabel=labels[sortedDistances[i]]
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
        # get是取字典里的元素
        # 如果之前这个voteIlabel是有的，那么就返回字典里这个voteIlabel里的值
        # 如果没有就返回0（后面写的），这行代码的意思就是算离目标点距离最近的k个点的类别
        # 这个点是哪个类别哪个类别就加1
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    # key=operator.itemgetter(1)的意思是按照字典里的第一个排序
    # {A:1,B:2},要按照第1个（AB是第0个），即‘1’‘2’排序。
    # reverse=True是降序排序
    return sortedClassCount[0][0]#返回类别最多的类别

学习机器学习实战那本书的第一个算法。必须得记录一下这么重要的first 哈哈

鹿小闹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
菜鸟初学第二周之kNN分类算法

时间：20180716-20180722 from numpy import *import operatordef createDataSet():#给定4组数据 group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])#点的集合 labels=['A','A','B','B']#点标签 return group,...
复制链接

扫一扫