机器学习一基于K近邻法算法实现对mnist数据集的分类

最新推荐文章于 2023-02-02 12:07:22 发布

江南无妖

最新推荐文章于 2023-02-02 12:07:22 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/caoyitong/article/details/123737683

版权

机器学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

原理解析：

K近邻法算法

原理
K近邻法的含义就是k个最相近的“邻居”。将待测试的数据每个特征和训练样本数据的每个特征进行比较，然后提取k个最邻近的训练样本数据，统计这k个训练样本数据的分类标签，其中出现次数最多的标签所表示的类别就是待测试数据的类别。
算法：根据给定的距离量度方法（这里我们选择使用欧氏距离）在训练集T中找出与x最相近的k个样本点，并将这k个样本点所表示的集合记为Nk(x)；

欧式距离：

根据如下所示的多数投票的原则确定实例x所属类别y：

I为指示函数：

③mnist数据集

MNIST是一个入门级的计算机视觉数据集，它包含各种手写数字图片：它也包含每一张图片对应的标签，告诉我们这个是数字几。

本次实验中手写数字的图片是28*28的灰度图片，图片中每个像素点的值范围是0-255（黑色是0，白色是255）, 图片文件是按照这样格式写的：

魔法值（32位）+图片数量（32位）+图片宽（32位）+图片长（32位）+ 所有图数据

（1）魔法值：文件标识，train-images-idx3-ubyte文件的magic值是42000

（2）所有图数据：单张图数据28*28=784个 uint8，所以所有图N，就是N*784个uint8

代码分析：

1.首先读取数据。

这里将train.csv分为两组。

一组为0.7*len()的训练集

一组为0.3*len()的测试集

将数据集读取后，转化为矩阵

2.进行训练

①设k=10,通过训练集（0.7*len()）,计算欧式距离，得到距离最近的前十个点

②在这一步中

classCount[voteLabel] = classCount.get(voteLabel, 0) + 1#多数法则

实现多数法则，将前十个点label值出现最多的值，作为这个点的label

3.进行测试

将根据训练集得到每个图片的最可能的label值与测试集中每个图片的真实label值进行比较，如果相等则，准确个数+1，最终得到准确率

当k=10时，可以得到准确率为96.0317%，准确率比较高。测试k=7和k=12时，准确率都没有k=10得到的准确率高。

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
机器学习一基于K近邻法算法实现对mnist数据集的分类

原理解析： K近邻法算法原理 K近邻法的含义就是k个最相近的“邻居”。将待测试的数据每个特征和训练样本数据的每个特征进行比较，然后提取k个最邻近的训练样本数据，统计这k个训练样本数据的分类标签，其中出现次数最多的标签所表示的类别就是待测试数据的类别。算法：根据给定的距离量度方法（这里我们选择使用欧氏距离）在训练集T中找出与x最相近的k个样本点，并将这k个样本点所表示的集合记为Nk(x)；欧式距离：根据如下所示的多数投票的原则确..
复制链接

扫一扫

专栏目录

江南无妖 CSDN认证博客专家 CSDN认证企业博客

码龄4年

33: 原创

6万+: 周排名

6万+: 总排名

6万+: 访问

: 等级

459: 积分

3661: 粉丝

75: 获赞

10: 评论

475: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习四基于支持向量机SVM模型实现对mnist数据集的分类
m0_62996181: 求份源码谢谢
华为机试HJ16 购物单 C语言动态规划详细解答
江南无妖: (๑•̀ㅂ•́)و✧
PE文件解析--导入函数节.rdata
◇邹◇: 文中计算api个数那里一个减的直接就是dll的数量吧，毕竟对于每个dll都要有一个全0的结束符。还是谢谢作者的文章，写的很好。
密码学实现64bit RSA c语言
Paintrain: 64位rsa计算中途会产生大概96位数，这个unsigned long long int是怎么能处理的到的。。
华为机试HJ16 购物单 C语言动态规划详细解答
Tiger_pop: 这5种情况的分类讨论，感觉跳过了一些解释，我补充一下您看看对不对：首先是判断给定的钱数满足了主产品需求吗，到了就判断是否取了i，所以不取的情况还是 dp[i-1][j]；而之后的三个if 判断有点类似于冒泡，在上一个判断的基础上层层递进，目的是求五种情况中的最大值，所以每种情况不取时不在写 dp[i-1][j] 而是 dp[i][j]， dp[i][j] 指的是上一种情况Max 判断后的结果，层层递进选出五种情况的最大值。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。