K近邻算法
算法原理:
- 将数据转换成向量形式;
- 计算输入向量与样本中的距离(比如欧式距离等);
- 对距离计算结果排序;取前k个;
- 根据指定规则(多数或者按照一定权重进行计算)确定输入向量类别。
python实现;
import numpy as np
import operator
class KnnMethod:
def __init__(self):
pass
def fit(self,train_x,train_y):
self.X=train_x
self.Y=train_y
def predict(self,k,dis,x_test):
assert dis=='E' or dis=='M','dis must E or M'
num_test=x_test.shape[0]#测试集样本数
labelist=[]#存放返回结果的列表
#欧式距离
for i in range(num_test):
distance=np.sqrt(np.sum(((self.X-np.tile(x_test[i],(self.X.shape[0],1)))**2),axis=1))
nearest_k=np.argsort(distance)
topK=nearest_k[:k]
classcound={}#存放标签的字典
for i in topK:
classcound[self.Y[i]]=classcound.get(self.Y[i],0)+1
#字典中get方法:返回指定键的值,如果值不在字典中返回默认值0
soortedclasscound=sorted(classcound.items(),key=operator.itemgetter(1),reverse=True)
#key指定一个排序函数,operator.itemgetter(1)表示以第二个维度的值进行排序
labelist.append(soortedclasscound[0][0])#排序后个数最多的标签名
return np.array(labelist)
代码实现参考《深度学习与图像识别原理与实践》