from numpy import *
import operator as opt
# 对数据集进行规范化
def normData(dataSet):
maxVals = dataSet.max(axis=0) # 求出一列的最大值
minVals = dataSet.min(axis=0) # 求出一列的最小值
ranges = maxVals - minVals # 对有个数据进行规范的时候,用数据集减去这一列最小的除以这一列的最大值减去最小值,保证数据的范围在0-1内
retData = (dataSet - minVals) / ranges # 对数据集进行规范化
'''返回规范后的数据集,最大值减去最小值,以及最小值'''
return retData, ranges, minVals
# 计算距离
def countdist(dataset,testdata):
distSquareMat = (dataSet - testData) ** 2 # 计算差值的平方
distSquareSums = distSquareMat.sum(axis=1) # 求每一行的差值平方和
distances = distSquareSums ** 0.5 # 开根号,得出每个样本到测试点的距离
return distances
# knn算法
def kNN(dataSet, labels, testData, k):
'''
k值代表在k个最近的数据
找到距离最小的k个数据
看k个数据里面,哪个标签的最多,就把测试数据归于哪一类
'''
distances=countdist(dataSet,testData)
sortedIndices = distances.argsort() # 排序,得到排序后的下标,argsort()返回从小到大的索引值
indices = sortedIndices[:k] # 取最小的k个,前面的k个
labelCount = {} # 字典,前面放标签,后面放计数,存储每个label的出现次数
for i in indices:
label = labels[i]
labelCount[label] = labelCount.get(label, 0) + 1 # 如果lable1在字典里,则计数加一,如果不在,就拉lable加进去并且初始化为0,然后加一
sortedCount = sorted(labelCount.items(), key=opt.itemgetter(1), reverse=True) # lableCount.iteritems()将lableCount字典分解为元组列表,operator.itemgetter(1)按照第二个元素的次序对元组进行排序,reverse=True是逆序,即按照从大到小的顺序排列
return sortedCount[0][0] # 返回出现次数最大的label
if __name__ == "__main__":
dataSet = array([[2, 3], [6, 8],[5,4],[4,4]]) # 初始定义的一个数据集
normDataSet, ranges, minVals = normData(dataSet) # 调用函数求出规范后的数据集,最大值减去最小值,最小值
labels = ['a', 'b','c','c'] # 标签
testData = array([3.9, 5.5]) # 测试的数据
normTestData = (testData - minVals) / ranges # 对测试的数据进行规范化
result = kNN(normDataSet, labels, normTestData, 2) # 调用knn函数,得到结果,输出
print(result)
knn详细注释python
最新推荐文章于 2020-12-03 01:11:09 发布