深度解析：机器学习中的文字识别过程与优化策略-CSDN博客

本文链接：https://blog.csdn.net/qq_52297656/article/details/136041222

一、问题描述和流程图

图片文字识别是从一张给定的图片中识别文字，为了完成这样的工作，需要采取如下步骤：

①文字检测（Text detection）——将图片上的文字与其他环境对象分离开来

②字符切分（Character segmentation）——将文字分割成一个个单一的字符

③字符分类（Character classification）——确定每一个字符是什么

可以用任务流程图来表示这个问题，每一项任务可以由一个单独的模块来负责解决：

二、滑动窗口

滑动窗口是一项用来从图像中抽取对象的技术，假使我们需要在一张图片中识别行人，首先要做的是用许多固定尺寸的图片来训练一个能够准确识别行人的模型，其次我们用之前训练识别行人的模型时所采用的图片尺寸在我们要进行行人识别的图片上进行剪裁，接着将剪裁得到的切片交给模型，让模型判断是否为行人，如此循环直至将图片全部检测完。一旦完成后，我们按比例放大剪裁的区域，再以新的尺寸对图片进行剪裁，将新剪裁的切片按比例缩小至模型所采纳的尺寸，交给模型进行判断，如此循环。

滑动窗口技术也用于文字识别，首先训练模型能够区分字符与非字符，然后运用滑动窗口技术识别字符，一旦完成了字符的识别，我们将识别得出的区域进行一些扩展，然后将重叠的区域进行合并。接着我们以宽高比作为过滤条件，过滤掉高度比宽度更大的区域（通常认为单词的长度比高度要大）。下图中绿色的区域是经过这些步骤后被认为是文字的区域，而红色的区域是被忽略的

以上便是文字检测阶段。
下一步是训练一个模型来完成将文字分割成一个个字符的任务，需要的训练集由单个字符的图片和两个相连字符的图片来训练模型，下图左边是需要分割的图片，右边是不需要分割的图片

模型训练完后，我们仍然是使用滑动窗口技术来进行字符识别。，以上便是字符切分阶段。
最后一个阶段是字符分类阶段，利用神经网络或者逻辑回归算法训练一个分类器。

三、获取大量数据和人工数据

如果我们的模型是低方差的，那么获得更多的数据用于训练模型是能够有更好的效果的。问题在于我们怎样获得数据，数据不总是可以直接获得的，我们有可能需要人工创造一些数据。以我们的文字识别应用为例，我们可以从字体网站下载各种字体，然后利用这些不同的字体配上各种不同的随机背景图片创造出一些用于训练的实例，这让我们能够获得一个无限大的训练集，这是从零开始创造实例。

另一种方法是利用已有的数据，然后对其进行修改，例如将已有的字符图片进行一些扭曲、旋转、模糊处理，只要我们认为实际数据有可能和经过这样处理后的数据类似，我们便可以用这样的方法来创造大量的数据。

获得更多数据的几种方法：

人工数据合成

手动收集、标记数据

众包

四、上限分析

在机器学习的应用中，我们通常需要通过几个步骤才能进行最终的预测，那么我们如何能够知道哪一部分最值得我们花时间和精力去改善呢？这个问题可以通过上限分析来回答。

回到我们的文字识别应用中，我们的流程图如下：

流程图中每一部分的输出都是下一部分的输入，上限分析中，我们选取一部分，然后看应用的整体效果提升了多少，假使我们的文字识别例子中总体效果为72%的正确率。

如果我们令文字检测部分输出的结果100%正确，发现系统的总体效果从72%提高到了89%。这意味着我们很可能会投入时间精力来提高我们的文字检测部分。

接着我们手动选择数据，让字符切分输出的结果100%正确，发现系统的总体效果只提升了1%，这意味着我们的字符切分部分可能已经足够好了。

最后我们手工选择数据，让字符分类输出的结果100%正确，系统的总体效果又提升了10%，这意味着我们可能也会投入更多的时间和精力来提高应用的总体表现。

五、总结与致谢

今天也是终于把机器学习的基础知识学完了一遍，在最后这小节内容中，我想快速地回顾一下这门课的主要内容。

在这门课中，我花了大量的时间介绍了诸如线性回归、逻辑回归、神经网络等一些监督学习算法，这类算法具有带标签的数据和样本，比如 ${{x}^{\left( i \right)}}$ 、 ${{y}^{\left( i \right)}}$ 。然后我也花了很多时间介绍无监督学习。例如 K-均值聚类、用于降维的主成分分析以及当你只有一系列无标签数据 ${{x}^{\left( i \right)}}$ 时的异常检测算法。当然，有时带标签的数据也可以用于异常检测算法的评估。此外，我也花时间讨论了一些特别的应用或者特别的话题，比如说推荐系统、用于计算机视觉技术的滑动窗口分类算法。

最后，我还提到了很多关于构建机器学习系统的实用建议，这包括了怎样理解某个机器学习算法是否正常工作的原因，所以我谈到了偏差和方差的问题，也谈到了解决方差问题的正则化。同时我们也讨论了怎样决定接下来怎么做的问题，也就是说当我们在开发一个机器学习系统时，什么工作才是接下来应该优先考虑的问题，因此我们介绍了评价矩阵，比如：查准率、召回率以及F1分数，还有评价学习算法比较实用的训练集、交叉验证集和测试集。另外我们也介绍了学习算法的调试，以及如何确保学习算法的正常运行，于是我们介绍了一些诊断法比如学习曲线，同时也讨论了误差分析、上限分析等等内容。所有这些工具都能有效地指引我们决定接下来应该怎样做，让我们把宝贵的时间用在刀刃上。

非常感谢吴恩达老师的课程，老师非常温柔而且经常在视频中鼓励我们。每次学完一个模块我都会把知识点以博客的方式记录下来，方便我以后复习，同时也希望能够帮助大家。我深知要坚持学完这门课是需要花一些时间的，但我想告诉大家地是，我所介绍的只是机器学习的基础知识，只有通过大量的实践我们才能够更好地掌握这门课，所以大家必须要花时间来研究那些编程练习。最后非常感谢大家浏览、点赞和收藏我的文章，对你们表示由衷地感谢，我衷心地希望你们能从这门课中有所收获！