knn详细注释python

from numpy import *
import operator as opt


# 对数据集进行规范化
def normData(dataSet):
  maxVals = dataSet.max(axis=0) # 求出一列的最大值
  minVals = dataSet.min(axis=0) # 求出一列的最小值
  ranges = maxVals - minVals    # 对有个数据进行规范的时候,用数据集减去这一列最小的除以这一列的最大值减去最小值,保证数据的范围在0-1内
  retData = (dataSet - minVals) / ranges    # 对数据集进行规范化
  '''返回规范后的数据集,最大值减去最小值,以及最小值'''
  return retData, ranges, minVals

# 计算距离
def countdist(dataset,testdata):
  distSquareMat = (dataSet - testData) ** 2  # 计算差值的平方
  distSquareSums = distSquareMat.sum(axis=1)  # 求每一行的差值平方和
  distances = distSquareSums ** 0.5  # 开根号,得出每个样本到测试点的距离
  return distances


# knn算法
def kNN(dataSet, labels, testData, k):
  '''
  k值代表在k个最近的数据
  找到距离最小的k个数据
  看k个数据里面,哪个标签的最多,就把测试数据归于哪一类
  '''
  distances=countdist(dataSet,testData)
  sortedIndices = distances.argsort() # 排序,得到排序后的下标,argsort()返回从小到大的索引值
  indices = sortedIndices[:k] # 取最小的k个,前面的k个
  labelCount = {} # 字典,前面放标签,后面放计数,存储每个label的出现次数
  for i in indices:
    label = labels[i]
    labelCount[label] = labelCount.get(label, 0) + 1 # 如果lable1在字典里,则计数加一,如果不在,就拉lable加进去并且初始化为0,然后加一
  sortedCount = sorted(labelCount.items(), key=opt.itemgetter(1), reverse=True) # lableCount.iteritems()将lableCount字典分解为元组列表,operator.itemgetter(1)按照第二个元素的次序对元组进行排序,reverse=True是逆序,即按照从大到小的顺序排列
  return sortedCount[0][0] # 返回出现次数最大的label



if __name__ == "__main__":
  dataSet = array([[2, 3], [6, 8],[5,4],[4,4]])   # 初始定义的一个数据集
  normDataSet, ranges, minVals = normData(dataSet)  # 调用函数求出规范后的数据集,最大值减去最小值,最小值
  labels = ['a', 'b','c','c']   # 标签
  testData = array([3.9, 5.5])    # 测试的数据
  normTestData = (testData - minVals) / ranges  # 对测试的数据进行规范化
  result = kNN(normDataSet, labels, normTestData, 2)  # 调用knn函数,得到结果,输出
  print(result)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Sure, 我可以和您介绍一下如何写基于KNN的图片识别的Python程序。以下是程序示例和注释: ```python import numpy as np import cv2 import os class KNN: def __init__(self, k): self.k = k def predict(self, dataset, labels, sample): # 计算所有样本与待测样本的欧式距离 dist = np.sqrt(np.sum(np.square(dataset - sample), axis=1)) # 将距离递增排序,并按照排序后的索引值提取对应的标签值 sorted_dist_indices = np.argsort(dist) class_count = {} # 统计前k个最近样本的标签及出现次数 for i in range(self.k): vote_label = labels[sorted_dist_indices[i]] class_count[vote_label] = class_count.get(vote_label, 0) + 1 # 返回出现次数最多的标签值 max_count = 0 for key, value in class_count.items(): if value > max_count: max_count = value max_index = key return max_index def load_dataset(dataset_path): # 加载数据集 images = [] labels = [] for root, dirs, files in os.walk(dataset_path): for file in files: # 获取图片路径和对应标签值 image_path = os.path.join(root, file) label = int(os.path.basename(root)) # 读取图片 image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE) # 将图片转换成向量形式 image_vector = np.reshape(image, [-1]) images.append(image_vector) labels.append(label) # 转换为数组形式 images = np.array(images) labels = np.array(labels) return images, labels def main(): # 数据集路径 dataset_path = './dataset/' # 加载数据集 dataset, labels = load_dataset(dataset_path) # 定义KNN分类器,K值为5 knn = KNN(5) # 读取待测图片 test_image = cv2.imread('./test/0.jpg', cv2.IMREAD_GRAYSCALE) # 将待测图片转换成向量形式 test_image_vector = np.reshape(test_image, [-1]) # 预测待测图片的标签值 predict_label = knn.predict(dataset, labels, test_image_vector) print('Predicted label:', predict_label) if __name__ == '__main__': main() ``` 以上程序是基于KNN算法实现的简单图片识别程序。程序首先会加载位于`./dataset/`目录下的数据集,数据集的每个子目录分别代表一种图像分类,下面依次列举各文件夹中图片分类。 - `./dataset/0/`: 包含0-9中数字0的各种变形 - `./dataset/1/`: 包含0-9中数字1的各种变形 - `./dataset/2/`: 包含0-9中数字2的各种变形 - `./dataset/3/`: 包含0-9中数字3的各种变形 - `./dataset/4/`: 包含0-9中数字4的各种变形 - `./dataset/5/`: 包含0-9中数字5的各种变形 - `./dataset/6/`: 包含0-9中数字6的各种变形 - `./dataset/7/`: 包含0-9中数字7的各种变形 - `./dataset/8/`: 包含0-9中数字8的各种变形 - `./dataset/9/`: 包含0-9中数字9的各种变形 程序中`load_dataset`函数负责将数据集中的图片加载进来,转换成向量形式。其中,每个图像文件在加载时,使用cv2的imread函数获得相应的像素矩阵,并将其转换成向量形式,最后存储到images数组和labels数组中。 接着,程序会读取待测图片(`./test/0.jpg`),并将其转换为向量形式,利用KNN算法对其进行分类,最终输出预测的标签值。 以上程序只是一个简单的例子,您可以在其基础上加入更多的图像特征提取方法、分类器等,以提高识别率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@玉面小蛟龙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值