实验中用到的数据在我的上传中心有
1.什么是KNN
K近邻算法(K-Nearest Neighbour,K-NN)是一种基本分类与回归方法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
K近邻算法简单,直观。给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数某个类,就把该输入实例归入这个类。K近邻法没有显示的学习过程。
2.算法步骤
step.1—初始化距离为最大值
step.2—计算未知样本和每个训练样本的距离dist
step.3—得到目前K个最临近样本中的最大距离maxdist
step.4—如果dist小于maxdist,则将该训练样本作为K-最近邻样本
step.5—重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完
step.6—统计K个最近邻样本中每个类别出现的次数
step.7—选择出现频率最大的类别作为未知样本的类别
代码
import numpy as np
import operator
from matplotlib import pyplot as plt
#获取数据
def get_data(knn):
#计算txt文件的行数
count = len(open(knn).readlines())
#创建矩阵
data = np.zeros(shape = (count,2))
label = np.zeros(shape = (count,1))
label = label.astype(str)
i = 0
file = open(knn)
for line in file.readlines():
#strip()消除行首和行尾的空白
#split()以参数为间隔符,提取数据,返回字符串列表
cutline = line.strip().split(',')
data[i,:]= np.array(cutline[0:2],dtype = float)
label[i,0] = cutline[2]
i += 1
return data,label.T
#欧氏距离
def Euclidean(dataSet,testdata):
m = np.shape(dataSet)[0]#计算总个数
distance = np.zeros(m)
for i in range(m):
distance[i] = np.sqrt( np.sum( np.power( dataSet[i,:] - testdata[0,:] , 2) ) )
return distance
#训练集,测试数据,训练集标签,距离方式,k值
def Knn(dataSet,dataSet_label,testdata,distance_way,k):
#dist_sort是disance的升序排列的索引列表
dist_sort = distance_way(dataSet, testdata).argsort()
#创建一个{类别:频数}的字典
classcount = {}
#遍历前k个样本
for i in range(k):
label = dataSet_label[0,dist_sort[i]]
classcount[label] = classcount.get( label , 0 ) + 1
#classcount_sort为classcount按照 '值' 序列的列表
classcount_sort = sorted(classcount.items(), key = operator.itemgetter(1),reverse = True)
#返回频数最高对应的标签
return classcount_sort[0][0]
#主程序
a= get_data('F:\人工智能\数据集\knn1.txt')
k=10
dataSet,dataSet_label = a[0],a[1]
testdata = np.array([
# [10.0,9.9,10.2,10.1]
# [5.4,3.7,1.5,0.2]
[5.4,3.7]
],dtype = float)
print("分类结果")
lab=Knn(dataSet,dataSet_label,testdata,Euclidean,k)
print(lab) #输出分类类型
histance=Euclidean(dataSet,testdata)
histance.sort()
r=(histance[k+1]+histance[k+2])/2#计算半径
'''
#计算每个标签的元素个数
num1 = str(dataSet_label.tolist()).count("Iris-setosa")
num2 = str(dataSet_label.tolist()).count("Iris-versicolor")
num3 = str(dataSet_label.tolist()).count("Iris-virginica")
'''
print("图像展示")
#图像展示
def circle(r, a, b): # 为了画出圆,这里采用极坐标的方式对圆进行表示 :x=r*cosθ,y=r*sinθ。
theta = np.arange(0, 2*np.pi, 0.01)#极角
x = a+r * np.cos(theta)
y = b+r * np.sin(theta)
return x, y
k_circle_x, k_circle_y = circle(r, 5.4,3.7)
plt.figure(figsize=(10, 10))
plt.xlim((4.0,8.0))#x坐标限制
plt.ylim((2.0,6.0))#y坐标限制
x_feature = list(map(lambda x: x[0], dataSet)) # 返回每个数据的x特征值
y_feature = list(map(lambda y: y[1], dataSet))
plt.scatter(x_feature[:50], y_feature[:50], c="b")
plt.scatter(x_feature[50:100], y_feature[50:100], c="g")
plt.scatter(x_feature[100:], y_feature[100:], c="r")
plt.scatter([5.4], [3.7], c="k", marker="x") # 待测试点的坐标
plt.plot(k_circle_x, k_circle_y)
实验结果: