图像数字识别、数字分割（OCR识别-教程+代码）

阿利同学

已于 2023-12-22 10:27:25 修改

阅读量2.1k

点赞数 3

分类专栏：新手小白编程的Python人工智能之路文章标签：计算机视觉 opencv python OCR 数字识别

于 2023-01-05 21:36:16 首次发布

本文链接：https://blog.csdn.net/ALiLiLiYa/article/details/128570570

版权

新手小白编程的Python人工智能之路专栏收录该内容

58 篇文章 41 订阅

订阅专栏

基本图像处理流程

这是我在测试图像处理中使用的原始图像。它有一些眩光点，但是图像相当干净。让我们逐步完成获取此源图像的过程，并尝试将其分解为单个数字。

在这里插入图片描述

影像准备

在开始图像处理流程之前，我们决定先调整一些图像属性，然后再继续。这有点试验和错误，但注意到，当我们调整图像的曝光度时，可以获得更好的结果。下面是使用Python调整后的图像，相当于曝光（阿尔法）的图像cv::Mat::convertTo这是刚刚在图像垫乘法操作cv2.multiply(some_img, np.array([some_alpha])，调整曝光。
在这里插入图片描述

灰度图

将图像转换为灰度
在这里插入图片描述

模糊

cv2.GaussBlur模糊图像以减少噪点。我们尝试了许多不同的模糊选项，但仅用轻微的模糊就找到了最佳结果。

阈值分割

在下图中，使用cv2.adaptiveThreshold带有cv2.ADAPTIVE_THRES_GAUSSIAN_C选项的方法。此方法采用两个参数，块大小和要调整的常数。
在这里插入图片描述

填补空白

由于大多数燃油泵都使用某种7段LCD显示屏，因此数字中存在一些细微的间隙，无法使用轮廓绘制方法，因此我们需要使这些段看起来相连。在这种情况下，我们将转到cv2.erode图像来弥补这些差距。使用cv2.dilate将其膨胀，但是这些方法通常适用于图像的白色部分。在我们的案例中，我们正在“侵蚀”白色背景以使数字看起来更大。
在这里插入图片描述

反转图像

在尝试在图像中查找轮廓之前，我们需要反转颜色，因为cv2.findContours方法将找到白色的连接部分，而当前的数字是黑色。
在这里插入图片描述

在图像上找到轮廓

下图显示了我们的原始图像，该图像在上图的每个轮廓上都有包围框。大家可以看到它找到了数字，但也找到了一堆不是数字的东西，因此我们需要将它们过滤掉。
在这里插入图片描述

轮廓过滤

1.现在我们有了许多轮廓，我们需要找出我们关心的轮廓。浏览了一堆气泵的显示和场景后，使用一套适用于轮廓的快速规则。

2.收集所有我们将分类为潜在小数的正方形轮廓。

3.扔掉任何不是正方形或高矩形的东西。

4.使轮廓与某些长宽比匹配。LCD显示屏中的十个数字中有九个数字的长宽比类似于下面的蓝色框高光之一。该规则的例外是数字“ 1”，其长宽比略有不同。通过使用一些样本轮廓，我将0–9！1方面确定为0.6，将1方面确定为0.3。它将使用这些比率和+/-缓冲区来确定轮廓是否是我们想要的东西，并收集这些轮廓。

5.对潜在数字应用一组附加规则，在这里我们将确定轮廓边界是否偏离所有其他潜在数字的平均高度或垂直位置。由于数字的大小应相同，并且在相同的Y上对齐，因此我们可以丢弃它认为是数字的任何轮廓，但不能像其他轮廓那样将其对齐和调整大小，
在这里插入图片描述

预测

有两个等高线轮廓，一个带潜在位数，一个带潜在小数位，我们可以使用这些轮廓边界裁剪图像，并将其输入经过训练的系统中以预测其值。有关此过程的更多信息，请参见“数字训练”部分。

查找小数

在图像中查找小数点是要解决的另一个问题。由于它很小，有时会连接到它旁边的手指，因此使用我们在手指上使用的方法来确定它似乎有问题。当我们过滤轮廓时，我们收集了可能是十进制的正方形轮廓。从上一步获得经过验证的数字轮廓之后，我们将找到数字的最左x位置和最右x位置，以确定我们期望的小数位数。然后，我们将遍历那些潜在的小数，确定它是否在该空间以及该空间的下半部分，并将其分类为小数。找到小数点后，我们可以将其插入到我们上面预测的数字字符串中。
在这里插入图片描述

数字训练

在机器学习的世界中，解决OCR问题是一个分类问题。我们建立了一组训练有素的数据，例如图像处理中的数字，将它们分类为某种东西，然后使用该数据来匹配任何新图像。一旦基本的图像隔离功能开始工作，我就创建了一个脚本，该脚本可以遍历图像文件夹，运行数字隔离代码，然后将裁剪的数字保存到新文件夹中供我查看。运行完之后，我会有一个未经训练的数字文件夹，然后可以用来训练系统
在这里插入图片描述
由于OpenCV已经包含了k近邻（k-NN）实现，因此无需引入任何其他库。为了进行训练，我们浏览了数字作物的文件夹，然后将其放入标有0–9的新文件夹中，因此每个文件夹中都有一个数字的不同版本的集合。我们没有大量的这些图像，但是有足够的证据来证明这是可行的。由于这些数字是相当标准的，我认为我不需要大量训练有素的图像就可以相当准确。

k-NN工作原理的基础是，我们将以黑白方式加载每个图像，将该图像存储在每个像素处于打开或关闭状态的数组中，然后将这些打开/关闭像素与特定的数字相关联。然后，当我们要预测一个新图像时，它将找出哪个训练图像与这些像素最匹配，然后向我们返回最接近的值。

整理好数字后，将创建一个新的脚本，该脚本将遍历这些文件夹，获取每个图像并将该图像与数字关联。到目前为止，在大多数代码中，一般的图像处理概念在Python和C ++中都应用相同，但是在这里会有细微的差别。

优化

一旦确定了数字隔离和预测的两个目标，就需要对算法进行优化，以预测泵的新图像上的数字。

在优化的初始阶段，创建了一个简单的Playground应用程序，其中使用了OpenCV提供的一些简单的UI组件。使用这些组件，可以创建一些简单的轨迹栏，以左右滑动并更改不同的值并重新处理图像。围绕该cv2.imshow方法创建了一个小包装程序，该方法可以平铺显示的窗口，因为我讨厌总是重新放置它们。
在这里插入图片描述
我们可以加载不同的图像，并在图像处理中尝试变量的不同变化，并确定最佳的组合。