knn算法的原理我就不多说了,我直接上代码吧
1.处理数据函数
def handle_data(dataset):
"""
获取数据
:param dataset:样本集
:return:输出x,y
"""
# 数据的x与y
x = dataset[:, :-1].astype(np.float)
y = dataset[:, -1]
return x,y
2.主算法流程
def knn_classifier(k,dataset,input):
"""
执行算法
:param k:k个邻居
:param dataset:所有的数据集
:param input:输入的预测数据
:return:输出预测的分类
"""
x,y = handle_data(dataset)
#1.计算数据样本合数据集中样本的距离
distance = np.sum((input-x)**2,axis = 1)
print('distance',distance)
#2.将所有的距离从小到大排序
sortDist = np.argsort(distance)
#3.计算前k哥最小距离的类别的个数
countLabel = {}
for i in range(k):
label = y[sortDist[i]]
countLabel[label] = countLabel.get(label,0)+1
# 4.返回前k个最小距离中最多的一个
sortLabel = sorted(countLabel.items(), key = operator.itemgetter(1), reverse=True)
return sortLabel[0][0]
3.主函数
dataset = np.loadtxt('datas.txt',dtype = np.str,delimiter = ",")
predict_data = [2,2]
print(knn_classifier(2,dataset,predict_data))
这个代码的通用性很高,只要符合dataset是以下的数据形势
1,1,A
1,2,A
1.5,1.5,A
3,4,B
4,4,B