knn详细注释python

最新推荐文章于 2020-12-03 01:11:09 发布

@玉面小蛟龙

最新推荐文章于 2020-12-03 01:11:09 发布

阅读量170

点赞数

分类专栏： python 人工智能文章标签： python

本文链接：https://blog.csdn.net/qq_43610614/article/details/106107164

版权

python 同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

人工智能

5 篇文章 0 订阅

订阅专栏

from numpy import *
import operator as opt


# 对数据集进行规范化
def normData(dataSet):
  maxVals = dataSet.max(axis=0) # 求出一列的最大值
  minVals = dataSet.min(axis=0) # 求出一列的最小值
  ranges = maxVals - minVals    # 对有个数据进行规范的时候，用数据集减去这一列最小的除以这一列的最大值减去最小值，保证数据的范围在0-1内
  retData = (dataSet - minVals) / ranges    # 对数据集进行规范化
  '''返回规范后的数据集，最大值减去最小值，以及最小值'''
  return retData, ranges, minVals

# 计算距离
def countdist(dataset,testdata):
  distSquareMat = (dataSet - testData) ** 2  # 计算差值的平方
  distSquareSums = distSquareMat.sum(axis=1)  # 求每一行的差值平方和
  distances = distSquareSums ** 0.5  # 开根号，得出每个样本到测试点的距离
  return distances


# knn算法
def kNN(dataSet, labels, testData, k):
  '''
  k值代表在k个最近的数据
  找到距离最小的k个数据
  看k个数据里面，哪个标签的最多，就把测试数据归于哪一类
  '''
  distances=countdist(dataSet,testData)
  sortedIndices = distances.argsort() # 排序，得到排序后的下标,argsort（）返回从小到大的索引值
  indices = sortedIndices[:k] # 取最小的k个，前面的k个
  labelCount = {} # 字典，前面放标签，后面放计数，存储每个label的出现次数
  for i in indices:
    label = labels[i]
    labelCount[label] = labelCount.get(label, 0) + 1 # 如果lable1在字典里，则计数加一，如果不在，就拉lable加进去并且初始化为0，然后加一
  sortedCount = sorted(labelCount.items(), key=opt.itemgetter(1), reverse=True) # lableCount.iteritems()将lableCount字典分解为元组列表，operator.itemgetter(1)按照第二个元素的次序对元组进行排序，reverse=True是逆序，即按照从大到小的顺序排列
  return sortedCount[0][0] # 返回出现次数最大的label



if __name__ == "__main__":
  dataSet = array([[2, 3], [6, 8],[5,4],[4,4]])   # 初始定义的一个数据集
  normDataSet, ranges, minVals = normData(dataSet)  # 调用函数求出规范后的数据集，最大值减去最小值，最小值
  labels = ['a', 'b','c','c']   # 标签
  testData = array([3.9, 5.5])    # 测试的数据
  normTestData = (testData - minVals) / ranges  # 对测试的数据进行规范化
  result = kNN(normDataSet, labels, normTestData, 2)  # 调用knn函数，得到结果，输出
  print(result)

@玉面小蛟龙

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
knn详细注释python

from numpy import *import operator as opt# 对数据集进行规范化def normData(dataSet): maxVals = dataSet.max(axis=0) # 求出一列的最大值 minVals = dataSet.min(axis=0) # 求出一列的最小值 ranges = maxVals - minVals # 对有个数据进行规范的时候，用数据集减去这一列最小的除以这一列的最大值减去最小值，保证数据的范围在0-1内 r
复制链接

扫一扫