机器学习(2)--邻近算法(KNN)

最新推荐文章于 2023-01-09 08:05:48 发布

雨落那秋林

最新推荐文章于 2023-01-09 08:05:48 发布

阅读量796

点赞数 1

分类专栏： python 机器学习文章标签：机器学习 knn python 监督学习

本文链接：https://blog.csdn.net/carmelcarmen/article/details/79058867

版权

python 同时被 2 个专栏收录

42 篇文章 3 订阅

订阅专栏

机器学习

33 篇文章 3 订阅

订阅专栏

KNN(k-NearestNeighbor)是监督学习的分类技术中最简单的方法之一，K指k个最近的邻居的意思，

简单的说：就是物以类聚，当有一条预测数据要看他属于哪个类别时，在训练数据集中，找出K个最近的点，看这k个最近的邻居都是什么类别，最终确定这条预测数据归属什么类别

优点：思想简单，算法简单，易于理解，没有像别的算法那些需要运用矩阵、概率，核心就是算距离

缺点：计算量大，可以理解为平时不努力，临阵磨枪，

别的机器学习算法，如神经网络，是对训练数据进行计算后，得到一个模型，当要预测数据时只要将预测数据套入模型计算一下就可以得到结果，虽然在这个计算模型过程的计算量还是非常大(平时努力学习)，但预测时还是非常快的，

可参考机器学习(1)--神经网络初探

而KNN基本没有训练这一说，只有在预测某条数据时，计算与所有训练数据的点的距离，所以说平时不努力，临阵磨枪，

本例使用数据集简介:以鸢尾花的特征作为数据，共有数据集包含150个数据集，

分为3类setosa(山鸢尾), versicolor(变色鸢尾), virginica(维吉尼亚鸢尾)

每类50个数据，每条数据包含4个属性数据和一个类别数据.

本例程序流程简述：随机抽取一定比例(预设70%)做为训练集，剩下的做为测试集，最终统计出测试的正确率

#-*- coding:utf-8 -*-  
data='''5.1,3.5,1.4,0.2,Iris-setosa
        4.9,3.0,1.4,0.2,Iris-setosa
        4.7,3.2,1.3,0.2,Iris-setosa
        4.6,3.1,1.5,0.2,Iris-setosa
        5.0,3.6,1.4,0.2,Iris-setosa
        5.4,3.9,1.7,0.4,Iris-setosa
        4.6,3.4,1.4,0.3,Iris-setosa
        5.0,3.4,1.5,0.2,Iris-setosa
        4.4,2.9,1.4,0.2,Iris-setosa
        4.9,3.1,1.5,0.1,Iris-setosa
        5.4,3.7,1.5,0.2,Iris-setosa
        4.8,3.4,1.6,0.2,Iris-setosa
        4.8,3.0,1.4,0.1,Iris-setosa
        4.3,3.0,1.1,0.1,Iris-setosa
        5.8,4.0,1.2,0.2,Iris-setosa
        5.7,4.4,1.5,0.4,Iris-setosa
        5.4,3.9,1.3,0.4,Iris-setosa
        5.1,3.5,1.4,0.3,Iris-setosa
        5.7,3.8,1.7,0.3,Iris-setosa
        5.1,3.8,1.5,0.3,Iris-setosa
        5.4,3.4,1.7,0.2,Iris-setosa
        5.1,3.7,1.5,0.4,Iris-setosa
        4.6,3.6,1.0,0.2,Iris-setosa
        5.1,3.3,1.7,0.5,Iris-setosa
        4.8,3.4,1.9,0.2,Iris-setosa
        5.0,3.0,1.6,0.2,Iris-setosa
        5.0,3.4,1.6,0.4,Iris-setosa
        5.2,3.5,1.5,0.2,Iris-setosa
        5.2,3.4,1.4,0.2,Iris-setosa
        4.7,3.2,1.6,0.2,Iris-setosa
        4.8,3.1,1.6,0.2,Iris-setosa
        5.4,3.4,1.5,0.4,Iris-setosa
        5.2,4.1,1.5,0.1,Iris-setosa
        5.5,4.2,1.4,0.2,Iris-setosa
        4.9,3.1,1.5,0.1,Iris-setosa
        5.0,3.2,1.2,0.2,Iris-setosa
        5.5,3.5,1.3,0.2,Iris-setosa
        4.9,3.1,1.5,0.1,Iris-setosa
        4.4,3.0,1.3,0.2,Iris-setosa
        5.1,3.4,1.5,0.2,Iris-setosa
        5.0,3.5,1.3,0.3,Iris-setosa
        4.5,2.3,1.3,0.3,Iris-setosa
        4.4,3.2,1.3,0.2,Iris-setosa
        5.0,3.5,1.6,0.6,Iris-setosa
        5.1,3.8,1.9,0.4,Iris-setosa
        4.8,3.0,1.4,0.3,Iris-setosa
        5.1,3.8,1.6,0.2,Iris-setosa
        4.6,3.2,1.4,0.2,Iris-setosa
        5.3,3.7,1.5,0.2,Iris-setosa
        5.0,3.3,1.4,0.2,Iris-setosa
        7.0,3.2,4.7,1.4,Iris-versicolor
        6.4,3.2,4.5,1.5,Iris-versicolor
        6.9,3.1,4.9,1.5,Iris-versicolor
        5.5,2.3,4.0,1.3,Iris-versicolor
        6.5,2.8,4.6,1.5,Iris-versicolor
        5.7,2.8,4.5,1.3,Iris-versicolor
        6.3,3.3,4.7,1.6,Iris-versicolor
        4.9,2.4,3.3,1.0,Iris-versicolor
        6.6,2.9,4.6,1.3,Iris-versicolor
        5.2,2.7,3.9,1.4,Iris-versicolor
        5.0,2.0,3.5,1.0,Iris-versicolor
        5.9,3.0,4.2,1.5,Iris-versicolor
        6.0,2.2,4.0,1.0,Iris-versicolor
        6.1,2.9,4.7,1.4,Iris-versicolor
        5.6,2.9,3.6,1.3,Iris-versicolor
        6.7,3.1,4.4,1.4,Iris-versicolor
        5.6,3.0,4.5,1.5,Iris-versicolor
        5.8,2.7,4.1,1.0,Iris-versicolor
        6.2,2.2,4.5,1.5,Iris-versicolor
        5.6,2.5,3.9,1.1,Iris-versicolor
        5.9,3.2,4.8,1.8,Iris-versicolor
        6.1,2.8,4.0,1.3,Iris-versicolor
        6.3,2.5,4.9,1.5,Iris-versicolor
        6.1,2.8,4.7,1.2,Iris-versicolor
        6.4,2.9,4.3,1.3,Iris-versicolor
        6.6,3.0,4.4,1.4,Iris-versicolor
        6.8,2.8,4.8,1.4,Iris-versicolor
        6.7,3.0,5.0,1.7,Iris-versicolor
        6.0,2.9,4.5,1.5,Iris-versicolor
        5.7,2.6,3.5,1.0,Iris-versicolor
        5.5,2.4,3.8,1.1,Iris-versicolor
        5.5,2.4,3.7,1.0,Iris-versicolor
        5.8,2.7,3.9,1.2,Iris-versicolor
        6.0,2.7,5.1,1.6,Iris-versicolor
        5.4,3.0,4.5,1.5,Iris-versicolor
        6.0,3.4,4.5,1.6,Iris-versicolor
        6.7,3.1,4.7,1.5,Iris-versicolor
        6.3,2.3,4.4,1.3,Iris-versicolor
        5.6,3.0,4.1,1.3,Iris-versicolor
        5.5,2.5,4.0,1.3,Iris-versicolor
        5.5,2.6,4.4,1.2,Iris-versicolor
        6.1,3.0,4.6,1.4,Iris-versicolor
        5.8,2.6,4.0,1.2,Iris-versicolor
        5.0,2.3,3.3,1.0,Iris-versicolor
        5.6,2.7,4.2,1.3,Iris-versicolor
        5.7,3.0,4.2,1.2,Iris-versicolor
        5.7,2.9,4.2,1.3,Iris-versicolor
        6.2,2.9,4.3,1.3,Iris-versicolor
        5.1,2.5,3.0,1.1,Iris-versicolor
        5.7,2.8,4.1,1.3,Iris-versicolor
        6.3,3.3,6.0,2.5,Iris-virginica
        5.8,2.7,5.1,1.9,Iris-virginica
        7.1,3.0,5.9,2.1,Iris-virginica
        6.3,2.9,5.6,1.8,Iris-virginica
        6.5,3.0,5.8,2.2,Iris-virginica
        7.6,3.0,6.6,2.1,Iris-virginica
        4.9,2.5,4.5,1.7,Iris-virginica
        7.3,2.9,6.3,1.8,Iris-virginica
        6.7,2.5,5.8,1.8,Iris-virginica
        7.2,3.6,6.1,2.5,Iris-virginica
        6.5,3.2,5.1,2.0,Iris-virginica
        6.4,2.7,5.3,1.9,Iris-virginica
        6.8,3.0,5.5,2.1,Iris-virginica
        5.7,2.5,5.0,2.0,Iris-virginica
        5.8,2.8,5.1,2.4,Iris-virginica
        6.4,3.2,5.3,2.3,Iris-virginica
        6.5,3.0,5.5,1.8,Iris-virginica
        7.7,3.8,6.7,2.2,Iris-virginica
        7.7,2.6,6.9,2.3,Iris-virginica
        6.0,2.2,5.0,1.5,Iris-virginica
        6.9,3.2,5.7,2.3,Iris-virginica
        5.6,2.8,4.9,2.0,Iris-virginica
        7.7,2.8,6.7,2.0,Iris-virginica
        6.3,2.7,4.9,1.8,Iris-virginica
        6.7,3.3,5.7,2.1,Iris-virginica
        7.2,3.2,6.0,1.8,Iris-virginica
        6.2,2.8,4.8,1.8,Iris-virginica
        6.1,3.0,4.9,1.8,Iris-virginica
        6.4,2.8,5.6,2.1,Iris-virginica
        7.2,3.0,5.8,1.6,Iris-virginica
        7.4,2.8,6.1,1.9,Iris-virginica
        7.9,3.8,6.4,2.0,Iris-virginica
        6.4,2.8,5.6,2.2,Iris-virginica
        6.3,2.8,5.1,1.5,Iris-virginica
        6.1,2.6,5.6,1.4,Iris-virginica
        7.7,3.0,6.1,2.3,Iris-virginica
        6.3,3.4,5.6,2.4,Iris-virginica
        6.4,3.1,5.5,1.8,Iris-virginica
        6.0,3.0,4.8,1.8,Iris-virginica
        6.9,3.1,5.4,2.1,Iris-virginica
        6.7,3.1,5.6,2.4,Iris-virginica
        6.9,3.1,5.1,2.3,Iris-virginica
        5.8,2.7,5.1,1.9,Iris-virginica
        6.8,3.2,5.9,2.3,Iris-virginica
        6.7,3.3,5.7,2.5,Iris-virginica
        6.7,3.0,5.2,2.3,Iris-virginica
        6.3,2.5,5.0,1.9,Iris-virginica
        6.5,3.0,5.2,2.0,Iris-virginica
        6.2,3.4,5.4,2.3,Iris-virginica
        5.9,3.0,5.1,1.8,Iris-virginica'''

import numpy as np
#数据处理,取得100条的数据,将类别转化为1.0，2.0，3.0数字，因为后面使用NUMPY计算比较快，在数别的数据类型上和属性一样使用浮点型
data=data.replace(' ','').replace("Iris-setosa","1.0").replace("Iris-versicolor","2.0").replace("Iris-virginica","3.0").split('\n')
data=list(filter(lambda x: len(x)>0,data))
data=[x.split(',') for x in data]
data=np.array(data).astype(np.float16)


def splitData(trainPrecent = 0.7):
    train=[]
    test=[]
    for i in data:
        (train if np.random.random()<trainPrecent else test).append(i)
    return train,test

#附送一条一句话的快速排序法，正常情况不建议使用，有那么一点点一点点的效率问题，
#sort=lambda arr:arr if len(arr)<=1 else (sort(list(filter(lambda x:x<=arr[0],arr[1:]))) + [arr[0]]+sort(list(filter(lambda x:x>arr[0],arr[1:]))))
#因为在本例中比较的是（训练类别，距离）所以对排序中的比较做些简单的修改
sort=lambda arr:arr if len(arr)<=1 else (sort(list(filter(lambda x:x[1]<=arr[0][1],arr[1:]))) + [arr[0]]+sort(list(filter(lambda x:x[1]>arr[0][1],arr[1:]))))

def knn(train,test,k=3):
    result=[];
    rightNumber=0;
    for testItem in test:
        item=testItem.tolist()# 每一个测试点转为list
        distArr=[]
        for trainItem in train:
            distArr.append((trainItem[-1],((testItem[0:-1]-trainItem[0:-1])**2).sum())) #每一个测试点与每一个训练点的（训练类别，距离）放入上述数组，
            #注意这里的距离计算未使用开根号，因为没有必要，

        distArr=sort(distArr)[0:k]#对距离进行排序,并取得距离最近的K个元素
        #注：单条记录的值因如下格式
        #[5.0, 3.599609375, 1.400390625, 0.199951171875, 1.0, [(1.0, 0.02023), (1.0, 0.03006), (1.0, 0.0595)]]
        #前五个元素为测试数据，最后一个 [(1.0, 0.02023), (1.0, 0.03006), (1.0, 0.0595)] ，表示最近的K个点的类别和距离

        distArr=[x[0] for x in distArr] #提取类别 数据格式 [1.0, 1.0, 1.0]，分别表示提取K个点的类别

        countType={}#统计每个类别的数量
        for distItem in distArr:
            if distItem in countType:
                countType[distItem]+=1
            else:
                countType[distItem]=1
        
        resultType=None
        if len(countType)==1 or len(countType)==k: #当只有一个类别，或类别均不相同时，取第一个类别
            resultType=distArr[0]
        else:
            #对类别，按数量进行排序,
            typeArr=[]
            for countItem in countType:
                typeArr.append((countItem,countType[countItem]))
            typeArr=sort(typeArr)
            resultType=typeArr[-1][0]#取得数量最多的类做为结果

        if resultType==item[-1]:rightNumber+=1 #与测试数据中的结果进行比对，看是测试的结果是否正确

    return rightNumber

train,test=splitData()
rightNumber=knn(train,test)
print("共取得训练数据%d条，测试数据%d条，测试后正确数据为%d条，正确率为%.2f%%。"%(len(train),len(test),rightNumber,rightNumber/len(test)*100))

雨落那秋林

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
机器学习(2)--邻近算法(KNN)

KNN(k-NearestNeighbor)是监督学习的分类技术中最简单的方法之一，K指k个最近的邻居的意思，简单的说：就是物以类聚，当有一条预测数据要看他属于哪个类别时，在训练数据集中，找出K个最近的点，看这k个最近的邻居都是什么类别，最终确定这条预测数据归属什么类别优点：思想简单，算法简单，易于理解，没有像别的算法那些需要运用矩阵、概率，核心就是算距离缺点：计算量大，可以理解为平时
复制链接

扫一扫