最近邻分类器
近邻算法的目的是使用一系列的已知类别的训练集合tr_set
来推测未知类别的测试数据te_data
的类别,方法是计算te_data
和训练集合tr_set
中的所有数据的距离,找到训练数据中与测试数据最近的一个数据,由于训练数据的类别已经知道了,我们可以大胆推测测试数据类别就是这个距离最近的训练数据的类别。但是推测并不一定准确,近邻算法基于统计学,有一定的错误概率。
最近邻分类器的改进版-k近邻分类器
直接根据距离最近这一个判断条件就推断出测试数据的类别有点武断,有可能这个距离最近的数据是一个非常奇葩的数据。我们放大范围,选择最近的k个已知类别的数据,由这些数据投票决定这个未知的数据的类别。也就是说距离测试数据最近的k个训练数据中类别频率最高的类别就是这个测试数据的类别。
如图所示:判断问号位置的点的类别,就看周围点的类别,如果k=3的话,这三个距离最近的点投票决定问号位置点的类别为三角形,如果k=5的话,最后判定结构就是正方形了。
使用nn算法和knn算法识别手写数字
将手写数字形成的二维图形转变位一维向量,使用欧式距离来评价两个向量直接的距离,nn算法直接返回最近邻向量的标签,knn算法对k个近邻向量的标签进行了一个统计,返回了出现频率最大的标签。最后统计出现错误的概率
main.py
import os
import numpy as np
from kNN import img_2_vec1, classify_nn, classify_knn
if __name__ == "__main__":
# 用于测试的入口
# 构造样本测试数据集合和对应标签
tr_files =