knn算法思想及代码实现

实验中用到的数据在我的上传中心有


1.什么是KNN

K近邻算法(K-Nearest Neighbour,K-NN)是一种基本分类与回归方法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
K近邻算法简单,直观。给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数某个类,就把该输入实例归入这个类。K近邻法没有显示的学习过程。

2.算法步骤

step.1—初始化距离为最大值
step.2—计算未知样本和每个训练样本的距离dist
step.3—得到目前K个最临近样本中的最大距离maxdist
step.4—如果dist小于maxdist,则将该训练样本作为K-最近邻样本
step.5—重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完
step.6—统计K个最近邻样本中每个类别出现的次数
step.7—选择出现频率最大的类别作为未知样本的类别

在这里插入图片描述


代码

import numpy as np
import operator
from matplotlib import pyplot as plt

#获取数据
def get_data(knn):
    #计算txt文件的行数
    count = len(open(knn).readlines())
    #创建矩阵
    data = np.zeros(shape = (count,2))
    label = np.zeros(shape = (count,1))
    label = label.astype(str)
    i = 0
    file = open(knn)
    for line in file.readlines():
        #strip()消除行首和行尾的空白
        #split()以参数为间隔符,提取数据,返回字符串列表
        cutline = line.strip().split(',')
        data[i,:]= np.array(cutline[0:2],dtype = float)
        label[i,0] = cutline[2]
        i += 1
    return data,label.T
#欧氏距离
def Euclidean(dataSet,testdata):
    m = np.shape(dataSet)[0]#计算总个数
    distance = np.zeros(m)
    for i in range(m):        
        distance[i] = np.sqrt( np.sum( np.power( dataSet[i,:] - testdata[0,:] , 2)  )  )
    return distance

#训练集,测试数据,训练集标签,距离方式,k值
def Knn(dataSet,dataSet_label,testdata,distance_way,k):
    #dist_sort是disance的升序排列的索引列表 
    dist_sort = distance_way(dataSet, testdata).argsort()
    #创建一个{类别:频数}的字典    
    classcount = {}
    #遍历前k个样本
    for i in range(k):
        label = dataSet_label[0,dist_sort[i]]
        classcount[label] = classcount.get( label , 0 ) + 1
    #classcount_sort为classcount按照  '值'  序列的列表
    classcount_sort = sorted(classcount.items(), key = operator.itemgetter(1),reverse = True)
    #返回频数最高对应的标签
    return classcount_sort[0][0]
 

#主程序
a= get_data('F:\人工智能\数据集\knn1.txt')
k=10
dataSet,dataSet_label = a[0],a[1]
testdata = np.array([
           # [10.0,9.9,10.2,10.1] 
          # [5.4,3.7,1.5,0.2] 
          [5.4,3.7]
            ],dtype = float)
print("分类结果")
lab=Knn(dataSet,dataSet_label,testdata,Euclidean,k)
print(lab) #输出分类类型
histance=Euclidean(dataSet,testdata)
histance.sort()
r=(histance[k+1]+histance[k+2])/2#计算半径
'''
#计算每个标签的元素个数
num1 = str(dataSet_label.tolist()).count("Iris-setosa")
num2 = str(dataSet_label.tolist()).count("Iris-versicolor")
num3 = str(dataSet_label.tolist()).count("Iris-virginica")
'''
print("图像展示")
#图像展示
def circle(r, a, b):  # 为了画出圆,这里采用极坐标的方式对圆进行表示 :x=r*cosθ,y=r*sinθ。
    theta = np.arange(0, 2*np.pi, 0.01)#极角
    x = a+r * np.cos(theta)
    y = b+r * np.sin(theta)
    return x, y

k_circle_x, k_circle_y = circle(r, 5.4,3.7)

plt.figure(figsize=(10, 10))
plt.xlim((4.0,8.0))#x坐标限制
plt.ylim((2.0,6.0))#y坐标限制
x_feature = list(map(lambda x: x[0], dataSet))  # 返回每个数据的x特征值
y_feature = list(map(lambda y: y[1], dataSet))
plt.scatter(x_feature[:50], y_feature[:50], c="b")  
plt.scatter(x_feature[50:100], y_feature[50:100], c="g")
plt.scatter(x_feature[100:], y_feature[100:], c="r")
plt.scatter([5.4], [3.7], c="k", marker="x")   # 待测试点的坐标
plt.plot(k_circle_x, k_circle_y)

实验结果:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值