山东大学数据结构课程设计 —— KNN分类器应用于手写数字识别、数据结构KD树的实现以及其K近邻搜索(1)-CSDN博客

本文链接：https://blog.csdn.net/2401_84590351/article/details/138738976

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

在上面的分析中:

K的选取一般来源于经验,一般选取一个较小的大于1的奇数，一般在 ( 1 , n ) (1,\sqrt n) (1,n )。

n较小时，n取 ( 1 , 10 ) (1,10) (1,10)中的奇数；

n较大时，n取 ( 1 , n / 2 ) (1,\sqrt n/2) (1,n /2)中的奇数；

并且考虑到，k的值对预测结果的敏感程度，所以在k较小的时候，步数尽可能小；在 k取值较大的时候，步数可以适量增大。

假定样本容量为 n n n, n n n的量级大概在 1 0 6 10^6 106自由，

所以 k k k不超过 n / 2 \sqrt n/2 n /2，也就是500。

所以，k的步长可以这样设计，

从3开始，为了保证k的取值是偶数，

1~10内，步长为2；
10~30内，步长为4；
30~60，步长为6；
60~100，步长为8；
100~500, 步长为40；

如此，既减少了模型训练、测试样本的时间，又在一定程度上表现了随着k的变化，对分类正确率的影响。

图像特征的数字化

本次实现的KNN分类器的最终目标是实现一个建议的手写字体识别器。

因此，对图像数字特征的提取工作就变得尤为关键。

下面介绍几个常见的 图像特征提取算法

暴力算法

将图像的每一个像素点都作为特征向量的一个维度，很明显。

这样做的缺点是非常明显的，甚至可以说毫无优点。

特征维度提取不精确

有一些并属于图像的像素也被作为特征维度，相当于成了噪声点 —— 也就是说并没有很好的体现图像的拓扑学关系。

维度太高

向量的维度太高，会带来一系列问题。内存占用太多，计算量迅速增大，并且对于高维向量的检索KD树表现的很差（几乎接近暴力的线性扫描的复杂度）。

以下内容均来自这篇文章

SIFT

SIFT：Scale-Invariant Feature Taransform，尺度不变特征变换。

尺度空间的极值检测：搜索所有尺度空间上的图像，通过高斯微分函数来识别潜在的对尺度和旋转鲁棒性较强的点。
特征点定位：在每个候选位置上，通过一个拟合精细模型（尺度空间DoG函数进行曲线拟合）来确定位置尺度，关键点的选取依据他们的稳定程度。

特征方向赋值：基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向，后续的所有操作都是对于关键点的方向、尺度和位置进行变换，从而提供这些特征的不变性。

特征点描述：在每个特征点周围的领域内，在选定的尺度上测量图像的局部梯度，计算块内梯度直方图，生成具有独特性的向量。

HOG

HOG：Histogram of Oriented Gradient，方向梯度直方图。

颜色空间归一化：为了减少光照因素的影响，首先需要将整个图像归一化。因为颜色信息作用不大，通常先转化为灰度图。
梯度计算：计算图像横坐标和纵坐标方向的梯度，并据此计算每个像素位置的梯度+ 方向值；求导操作不仅能捕获轮廓，还能进一步弱化光照的影响。
梯度方向直方图：将图像分成若干个cell，对cell内每个像素用梯度方向在直方图中进行加权投影（映射到固定的角度范围），就可以得到这个cell的梯度直方图。

将每几个cell组成一个block（例如3*3个cell/block），一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor。

组成特征：将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image（你要检测的目标）的HOG特征descriptor。

LBP

LBP：Local Binary Pattern，局部二值模式。

原始的LBP算子定义在像素3_3的邻域内，以邻域中心像素为阈值，相邻的8个像素的灰度值与邻域中心的像素值进行比较，若周围像素大于中心像素值，则该像素点的位置被标记为1，否则为0。这样，3_3邻域内的8个点经过比较可产生8位二进制数，将这8位二进制数依次排列形成一个二进制数字，这个二进制数字就是中心像素的LBP值，LBP值共有28种可能，因此LBP值有256种。中心像素的LBP值反映了该像素周围区域的纹理信息。

值得一提的是，即使暴力法有诸多不好，但是很多机器学习的教材上仍然将它作为特征提取的一种方法，原因是图像的特征解析已经和机器学习的内容关系不大了，

所以对初学者使用暴力法即可。

而本次任务是实现KNN算法，并且用KD树进行优化。

数据结构设计

======================================================================

这部分内容，放在了这篇博客详细介绍了。

传送门

应用程序设计

======================================================================

功能模块

下面介绍在此次课程设计中根据功能解耦拆分出来的功能模块。

如下。

画图模块

画图模块，使用JavaScript 和 canvas 标签完成。

完成的功能很简单，按住鼠标左键的同时移动鼠标，然后开始作图。

下方有两个按钮，清空按钮和识别按钮。

在这里插入图片描述

解析图形模块

这部分已经在上文的

图像特征的数字化

详细介绍过了，这里略去不谈。

样本数据加载模块

因为本次识别使用到了OpenCV官方给的数据集，而OpenCV官给的手写数字的数据集是用IDX文件格式的存储的。

而这样的文件格式虽然最高效的存储了图片信息，但是对于java来解析它，却绝非易事，所以样本数据加载模块的功能就是解析idx文件，

即可以生成可视化的图片，也生成以矩阵或者向量形式呈现出来的图片。

在处理IDX文件之前，必须对它的存储有一定了解。

有关IDX文件格式的信息： IDX文件格式是各种数值类型的向量和多维矩阵的简单格式. 基本格式是：

magic number size in dimension 0 size in dimension 1 size in

dimension 2 … size in dimension N data

幻数是一个整数(MSB优先).前2个字节始终为0.

第三个字节编码数据的类型：

0x08: unsigned byte 0x09: signed byte 0x0B: short (2 bytes) 0x0C:

int (4 bytes) 0x0D: float (4 bytes) 0x0E: double (8 bytes)

第4个字节编码向量/矩阵的维数：1表示向量,2表示矩阵….

每个维度的大小为4字节整数(MSB优先,高端,与大多数非英特尔处理器一样).

数据存储在C数组中,即最后一维中的索引变化最快.

在这里插入图片描述

idx文件解析完之后加载之后，可以看到官方给的手写字体的图片。

（图片大小为28*28）

在这里插入图片描述

浮点算法：

G r a y = R ∗ 0.3 + G ∗ 0.59 + B ∗ 0.11 Gray=R*0.3+G*0.59+B*0.11 Gray=R∗0.3+G∗0.59+B∗0.11

依次提取出每个像素的点的RGB值之后，根据灰度公式

G r a y = R ∗ 0.3 + G ∗ 0.59 + B ∗ 0.11 Gray=R*0.3+G*0.59+B*0.11 Gray=R∗0.3+G∗0.59+B∗0.11

提取出图片的矩阵呈现形式。由于矩阵太大，无法全部显示出来。

这里将其缩放乘8*8的图片并以灰度矩阵的形式展示出来。

分类器模块

训练模型的构建

将样本数据集标准化，然后

超参数k的选取

这部分内容在上面以及详细介绍过，此处略去。

测试模块

控制变量法研究不同因素的对分类器效率的影响。

这个模块会在下面详细介绍，这里就略去不谈了。

数据结构可视化模块

为了动态显示KD树的构建、插入节点等操作，以及实现KNN算法的可视化。

使用开源的 echarts 组件，实现树结构的可视化。

上面有三个按钮，分别是KD树的动态插入、重建KD树（利用样本集构建一个KD树）、以及显示二维向量的平面化展示。

同时，点击平面化的点，可以显示它周围的3个邻居，同时在树上实时显示。

在这里插入图片描述

测试和运行

=====================================================================

在测试KNN算法实现的分类器的时候，我们有这几个参数或因素是非常关心的，它们对KNN分类器的效率和准确率：

邻居个数的k的选择
向量维度K的不同
距离计算公式的选择
决策函数的选择
采用的训练模型：暴力扫描、KD树搜索

自然，使用控制变量法去研究不同因素的对KNN分类器的影响是非常有必要的。

邻居个数的k的选择

在本次实验中，样本容量为60000，

采取10折交叉验证法，对不同取值的超参数 k k k，评估了算法模型的准确率。

见下面两张图：随着k的增大，分类器识别的错误率基本上也在增大。

在这里插入图片描述

值得关注的是，在k = 3 ，5, 7等值的附近时，

出现了全局最优解，也就是在 k = 7 k = 7 k=7的时候，分类器的错误率达到了最低，也就是说识别率达到了最高。

在这里插入图片描述

通过实践证明， k k k一般情况下确实不应该选择一个比较大的数，一般情况下取得比较小。当然这也只是经验之谈。

具体的选择，还要根据实际问题、样本容量等具体因素通过一些验证法得出最优选择。

总结

==================================================================

KNN算法的优缺点

优点

算法本身简单、易于理解和实现
精度较高、对异常值不敏感
适用于大样本自动分类
需要参数估计很少，只有一个邻居个数 k k k
惰性学习，学习阶段仅仅是保存数据而已

缺点

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

分类

需要参数估计很少，只有一个邻居个数 k k k
惰性学习，学习阶段仅仅是保存数据而已

缺点

[外链图片转存中…(img-icPrze1e-1715458296487)]
[外链图片转存中…(img-O9gzu3Qw-1715458296487)]
[外链图片转存中…(img-1f5AQ9Ut-1715458296487)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取