1 代码实现
import numpy as np
def knn_classify(inx,train,labels,k):
row = np.shape(train)[0] #训练集有多少行
test = np.tile(inx,[row,1]) # 把一个样本复制row行
dis = test-train # 数组各个元素对应相减
dis = dis**2
dis = np.sum(dis,axis=1)
dis = dis**0.5
raw_index = np.argsort(dis)
# 统计前k个的标签状况
classcount = {}
for i in range(k):
label = labels[raw_index[i]]
if label in classcount:
classcount[label] +=1
else:
classcount[label] = 1
# 对字典排序
sort_classcount = sorted(classcount.items(),key=lambda x:x[1],reverse=True)
return sort_classcount[0][0]
inx输入一个数据,1*n的形式,train训练集,m*n格式,m是样本个数,n是特征个数,labels训练集标签,k最近的k个距离
样例:
此knn算法参考机器学习实战,是对一个样本的预测输出
标签可以是字符串,也可以是数字
2 所用函数解释
- np.shape() 如果是二维,返回行数,列数
- np.tile() # 元素复制
tile([1,2],[2,1]),对[1,2]复制成2行1列
import numpy as np
np.tile([1,2],[2,1])
array([[1, 2], [1, 2]])
- 数组的加减乘除运算
数组的加减乘除是对应元素的加减乘除,和矩阵的运算不一样
- 数组求和,求平均
np.sum(),np.mean()
对于二维数组,通过参数axis=0/1,来控制是对行运算,还是列运算
axis=1,对行求和,求平均,axis=0,队列求和,或求平均
- np.argsort()
对于sorted(),返回各个元素从小到大排序的结果
对于np.argsort(),各个元素排序后,不输出各个元素的排序的结果,而输出各个元素的索引,
这个索引是未排序时元素所在序列的编号。
- 对字典的排序
参考对字典的排序