KNN 在手写识别中的应用（Java 实现）

最新推荐文章于 2024-08-16 22:30:14 发布

冰水比水冰

最新推荐文章于 2024-08-16 22:30:14 发布

阅读量5.6k

点赞数 4

分类专栏：机器学习数据挖掘算法与数学文章标签：机器学习算法数据 java knn

本文链接：https://blog.csdn.net/luoyhang003/article/details/48266651

版权

本文详细介绍了K-邻近（KNN）算法，包括其工作原理、特点和流程，并通过一个Java实现的手写数字识别实例展示了KNN的应用。利用KNN算法，对未知类别的手写数字进行识别，通过计算与样本数据的距离进行分类。

摘要由CSDN通过智能技术生成

这篇博文主要介绍了一种基于机器学习的分类方法，K-邻近（KNN），并且使用这种方法来完成了一个简单的手写数字识别系统。

KNN 概述

什么是 KNN

KNN（K–nearest-neighbor），即 K-邻近算法，所谓 K 邻近，就是 K 个最近邻居的意思，说的是每个样本都可以用与它最接近的K 个邻居来进行表示。

工作原理

存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所述分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据的分类标签，一般来讲，我们只取样本集数据中前 K 个最相似的数据，最后在这 K 个数据中统计处出现次数最多的分类，最为新数据的分类。

算法特点

优点：精度高、对异常值不敏感、无数据输入假定
缺点：计算复杂度高、空间复杂度高
适用数据范围：数值型和标称型

算法流程

对未知类别属性的数据集中的每个店依次执行以下操作：

计算已知类别数据集中的点与当前点之间的距离
按照距离递增次序排列
选取与当前点距离最小的 K 个点
确定前 K 个点所在类别的出现频率
返回前 K 个点出现频率最高的类别作为当前点的预测分类

对于距离的计算，我们采用欧氏距离公式：

KNN的应用实例 - 手写识别（Java）

简述

我们所做的手写识别是来识别简单的手写数字，数据形式是如下图的文本文件：

我们有一些样本数据，然后用一些测试数据来进行算法的测试。

对于算法源码以及数据样本，详情见：https://github.com/luoyhang003/machine-learning-in-java/tree/master/k-Nearest-Neighbour

具体实现

代码写的比较烂，只是实现了 KNN 的算法，并没有优化，敬请见谅！

首先我们需要将这些文本转换为向量，可以存储于数组中

    public static int[] data2Vec(String fileName){
        int arr[] = new int[32 * 32];

        try{
            FileReader reader = new FileReader(fileName);
            BufferedReader buffer = new BufferedReader(reader);

            for(int index = 0; index < 32; index++){
                String str

最低0.47元/天解锁文章