手写数字识别的机器学习方法讨论

最新推荐文章于 2023-11-28 15:50:29 发布

leexurui

最新推荐文章于 2023-11-28 15:50:29 发布

阅读量2k

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leexurui/article/details/52352062

版权

数据挖掘专栏收录该内容

7 篇文章 0 订阅

订阅专栏

KNN算法：

好多样本（比如500个），每个样本存了一个0和1描述的矩阵（一般的数字图片可经过预处理（二值化，平滑去噪归一化）等方式变成类似的存储结构），类似下图，并告诉该样本是数字几。

手写数字识别的机器学习方法讨论

然后我们在程序中，把这个矩阵变成一行向量，然后把这500个样本的行向量存到一个矩阵或者哈希表中。

然后我们取一个需要判别数字的样本，把它的矩阵也变成行，然后循环分别求它跟上面500个样本行的欧式距离。求出来去距离最小的K个样本，然后判断在这 K个样本种，哪种数字最多，就判断该待测样本是什么数字。

优点:思路简单。

缺点：存储空间大，计算时间长。

决策树：有好多种针对数字识别的建立决策树的方法，根据不同特征分类，下面是一个我觉得比较可行的方法

http://www.doc88.com/p-1922129320599.html

（基于决策树的手写数字的识别 Handwritten Numeral Recognition Based On Decis.）

原理是图像用灰度图或者二值图表示，经过一系列降噪，剪裁之后，将原图切分成矩阵小图，比如3*5的小图。然后分别求这15个小图的密度特征（1-10）。这样每一个原始的大图就具有了15个特征属性。

这里决策树的属性变量是数字型，可以使用>= 或者<=来作为分隔条件。这样在每一步分割的时候，需要分别遍历剩余属性点的1-10中所有的点，选一个熵增益最大的当做当前分割点。

这样分割，每一次都能判别出一个数字的类别。

比如第一次判断的时候，发现用第2块小图的密度，以密度为5作为分割，这时的熵是最大的。所以做一次分割，分割后，左右两边，右边仍然是杂乱无章的，而明显左边大部分的数字类别都是数字1（可以定义个阈值或者投票）。认为此次分割分离出了1.

。。。

然后依次类推。。直到第10次分割，就认为吧所有的0-9的数字都区分了。

然后代入待测样本的密度，根据决策树就能找到对应的数字类别。

手写数字识别的机器学习方法讨论

SVM

在有限小样本的情况下非常实用。

其实总体思路跟决策树差不多，

手写数字识别的机器学习方法讨论

手写数字识别的机器学习方法讨论

http://www.doc88.com/p-9042734774169.html

神经网络

差不多，暴力计算。没试过。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
手写数字识别的机器学习方法讨论

KNN算法：好多样本（比如500个），每个样本存了一个0和1描述的矩阵（一般的数字图片可经过预处理（二值化，平滑去噪归一化）等方式变成类似的存储结构），类似下图，并告诉该样本是数字几。然后我们在程序中，把这个矩阵变成一行向量，然后把这500个样本的行向量存到一个矩阵或者哈希表中。然后我们取一个需要判别数字的样本，把它的矩阵也变成行，然后循环分别求它跟上面500个样本行的欧式距离
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。