一个人工智能的诞生_一个人工智能的诞生EP01 识别数字

最新推荐文章于 2024-03-21 13:20:15 发布

weixin_39928233

最新推荐文章于 2024-03-21 13:20:15 发布

阅读量2.7k

点赞数 1

文章标签：一个人工智能的诞生

本文链接：https://blog.csdn.net/weixin_39928233/article/details/113411258

版权

本文科普了一个人工智能识别数字的过程，通过交互式体验展示数字识别的前置处理、格式化图片和训练模型的步骤。强调了数字位置、图片标准化和权重调整在识别准确率中的关键作用。

摘要由CSDN通过智能技术生成

满赋诸机

读完需要

5分钟

速读仅需 2 分钟

《一个人工智能的诞生》是一个科普性质的交互式视频，但我把它当作一个学习与操作思考并重的益智游戏。本文介绍第一关——识别数字，本关由三个交互点组成。

识别手写数字

本关开始就通过一个能够实际操作的手写数字识别交互点引入，让大家对机器如何识别出不同的数字产生兴趣。我们可以写出任意数字，然后看右边的机器识别结果。正常书写的结果，机器识别正确率率较高，就不再尝试了。这里我们主要尝试各种边界情况，看看哪些因素影响了机器识别的正确率。

我们在不同位置写下同一个数字，观察对应的结果可以发现：这个数字识别系统只有在我们将数字写在画板正中间时，才能正确识别出数字。我们可以猜测出：数字识别系统的识别原理不仅依赖我们所写的数字，还依赖手写数字在图片中的位置。

格式化数字图片

在通过第一个手写数字识别的交互点之后，视频紧接着介绍了数字识别的前置操作：将手写数字图片处理成一种标准形式，供神经网络学习训练和识别。该标准形式是一个 28 * 28 像素的灰度图片，每个像素点的值是一个灰度值。该值范围在 [0, 255] 间，0 代表黑色， 255 代表白色，中间值代表不同程度的灰色。

经过前面我们自行验证猜测的结果，我们也可以猜测出：为了提高训练的识别率，减少干扰，我们应该在这个前置操作中包含矫正数字位置的操作，例如通过剪裁缩放等方式让我们手写的数字趋于图片的正中间。

视频在介绍完相关的操作后就进入了第二个交互点，主要是让我们通过改变 7 * 7 的像素画板中不同位置的像素值，将机器识别的结果从数字 3 变为数字 7 。这里也非常简单，我们依旧主要尝试各种边界情况，验证我们刚刚的猜测。

这次的识别结果和前一次一致，依旧是当数字在正中间时，数字识别系统才能正确识别数字。也说明了如果用一个优秀的前置操作去处理图片，保证像素值清晰且位于正中间，可以极大提升数字识别系统的识别准确率。(当然这其实也与我们训练的图片数据有关，人工手写的数据基本都是居中的，所以对居中的数字图片识别率更高)

在这次操作的过程中，其实我作为一个人也在学习如何使用控制这个交互点的一些相关操作。在整个过程中，我们首先看到一个灰度值拖动条，第一反应就是按住当前点拖动到指定位置，没有想过可以直接点击指定位置就可以完成拖动这个操作。在我不断重复这个操作的过程中，有时候会由于点击位置不准确，导致没有完成拖动的行为，但是仍然可以发现达成了拖动的目标。这种行为和结果在我们大脑中的不一致就会引发我们思考，我们会再次通过复现这个操作强化这种行为和结果的对应关系，从而逐渐学习到点击时拖动的简化操作，并将其纳入到我们的知识体系真正运用起来。

这一个流程其实就是我们学习的通常流程，也是机器学习模拟的行为：当预测的输出与实际的输出相同时，我们和机器不会进行额外的行为，因为它符合我们和机器的认知；当预测的输出与实际的输出不同时，我们和机器都会进行调整更新我们的知识体系，以便既可以兼容原有的认知，还可以兼容新增的认知。

训练模型

经过前面两个交互点的操作和验证后，我们应该可以肯定数字识别与每个位置及其灰度值有关。视频也接着提到了数字识别的简单原理，并将数字识别系统简化为分类 3 和 7 两个数字的数字分类系统。可以区分出 3 和 7 的关键就是在某些位置它们的灰度值不同， 3 和 7 最大的不同之处就是 3 多了中间和下面各一横。

一个简单的分类就是将每个图片的 784 个灰度值都考虑进去，形成一个 784 元的线性方程：w1 * x1 + w2 * x2 + ... + w784 * x784 + b = 0 ，其中 xi 表示像素点的灰度值， wi 表示该灰度值的权重， b 表示与阈值，最终结果为正数表示识别为 3 ，为负数表示识别为 7 。训练就是将每张图片的信息带入到前面的方程中，通过得出结果值的正负，确定分类结果，然后与实际的分类进行对比，如果正确，则不作处理；如果错误，则调整 wi 的值，使得图片能被正确分类。

我们观察训练开始和结果的权重情况，可以发现刚开始由于训练数很少，每一次错误的识别都会大量修改权重，前 30 次识别修改了 11 次权重；但到后期识别率提高，很少需要修改权重，并且对权重修改幅度也减少了，最后训练完 12388 次只修改了 357 次权重。

观察最终的权重分布图可以发现权重基本集中在中间部分，证实了我们前面的猜测：准确识别数字的关键就是这个数字要在图片的中间。

延伸

数字分类是最基础的一部分，但这个简单的原理是通用的，可以处理所有的灰度图片且不限于数字，不过训练时间会随着图片的大小提升。

本关中提到了分类的简单原理，使得我们大致可以了解到机器学习的整体流程，后续关卡就会接着介绍这个流程中的关键：识别错误后如何更新哪些权重。

weixin_39928233

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫