OCR研究与发展的历史回顾

最新推荐文章于 2024-05-10 16:45:00 发布

philosophia_OsO

最新推荐文章于 2024-05-10 16:45:00 发布

阅读量2.9k

点赞数 2

分类专栏： # 论文撰写

本文链接：https://blog.csdn.net/weixin_42715287/article/details/109239765

版权

Historical Review of OCR Research and Development

文章目录

摘要

本文从历史的角度对OCR系统的研究和发展进行了思考。本文主要分为两个部分：OCR系统的研究与发展，以及商用OCR的历史发展。研发部分进一步研究了模板匹配和结构分析两种方法。研究表明，这两种方法越来越接近，似乎它们趋向于合并成一条大河。另一方面，商业产品可以分为三代，每一代都选择了一些具有代表性的OCR系统，并对其进行了详细的描述。本文还对近年来在OCR中应用的专家系统、神经网络等技术进行了评述，并提出了一些有待解决的问题。最后，我们对这个迷人的领域的未来趋势提出了我们的看法和希望。

1 介绍

科学技术的历史并不像一条笔直的运河，而是像一条蜿蜒曲折的蜿蜒曲折。我们将不仅描述干流，还将描述由此产生的影响，例如当弯道改变方向后，牛轭湖就会产生。OCR的研究历史与语音识别一样，在模式识别领域中的研究历史比较悠久。在模式识别研究的早期，几乎所有人都选择了OCR这一主题。其中一个原因是文字处理起来非常方便，而且被认为是一个容易解决的问题。然而，出乎许多人的意料，在经过了一些初步的容易的进展之后，解决这个问题的巨大困难浮出水面。因此，人们对模式识别领域的许多课题都产生了兴趣，例如图像理解和三维物体识别。当然，这类研究有实际需求。一个新的领域总是给它的开拓者带来好处，但是对这些模式识别课题的研究似乎面临着一个强大的障碍。从这个意义上说，OCR的主题并不是特别的，而是普遍的，因为它包含了模式识别的基本问题，而这些问题是所有其他主题所共有的。从这个意义上说，我们尽可能从一个普遍的角度来写它的历史。事实上，这个问题是最深刻的，我们在写这本专著的时候就意识到了这一点。

另一方面，研究离不开工程应用。幸运的是，尽管文字处理器很流行，但OCR的市场需求非常强劲。例如，日本有十几家领先的公司正在销售或准备销售手写汉字读取器。到目前为止，这些复杂的机器还没有普及，但是可以肯定的是，如果价格和性能能够满足用户的要求，这些机器将作为一种非常自然的人机界面广泛应用于办公室。OCR知识的积累正在缩小用户和制造商之间的差距，这也得益于计算机技术的快速发展。

这一历史回顾大致分为三个部分。
第一部分是序曲。第二部分和第三部分分别是本文的主体部分，即研究和成果。
研究部分不仅有其自身存在的权利，而且为产品部分提供了准备，使读者在技术开发方面更容易、更深入地了解产品。研究部分又分为模板匹配和结构分析两种方法。本文表明这两种方法是收敛的。也就是说，模板匹配方法一直在吸收结构分析技术，现在这两种方法似乎正处于融合的边缘。
另一方面，我们将商业产品分为三代，每一代都选择具有代表性的OCR并对其进行详细描述。最后对专家系统和神经网络在OCR中的应用进行了评述。

这种描述可能偏向于日本的研发，但它反映了这样一个事实，即OCR的研发在日本尤其活跃和繁荣。多年来，位于茨城的电工实验室（ETL）在日本OCR技术的发展中起着关键作用。另一个原因是许多重要文件没有翻译成英文，因此我们认为这是一个向国际社会介绍其中一些文件的好机会。尽管如此，在撰写本文的过程中，我们发现了一些非常有用的参考书和评论论文，among them the books by Ullman [1], Sakai and Nagao [2], Pavlidis [3], and Mori and Sakakura book [4] and papers by Suen et al. [5], Schurman [6], and Couindan and Shivaprasad [7]. 其他书籍和评论论文都在适当的地方被参考，但是很难阅读所有与该主题相关的众多论文。因此，我们避免了传记式的描述，而是进行了大量的研究。在这里，我们没有提及文档分析和草书识别这两个非常重要的研究领域，因为本期的其他论文也参考了它们。然而，我们可能错过了一些重要的论文或专利。实际上，我们发现了一些新的论文，它们对准备这篇论文非常有用。我们非常感谢读者对本文的批评，并希望能对研究人员在OCR技术上的进步有所帮助。

2 OCR的黎明

1929年，陶舍克[8]在德国获得了OCR专利，1933年Handel[9]在美国也取得了同样的专利。这是我们所知的OCR概念的第一个概念。当时有些人梦想有一台能读字符和数字的机器。这一直是一个梦想，直到1950年代计算机时代到来。然而，我们认为他们的基本思想值得一提，因为它仍然存在。从这个意义上说，我们介绍了陶谢克的专利。其原理是模板/掩模匹配。这反映了当时采用光学和机械模板匹配的技术。通过机械掩模的光被光电探测器捕获并进行机械扫描。当精确匹配发生时，光无法到达探测器，因此机器可以识别打印在纸上的字符。

从数学上讲，这个原理就是叠加公理，它首先被欧几里得描述为第一卷元素中的第七公理。然而，对于人类来说，E在模式意义上与E具有相同的含义。因此，它们的等价原则是什么？到目前为止，还没有一个通用的解决方案，但它是模式识别的主要和核心问题。第七条公理是形状等价的第一条原则。我们稍后再讨论这个问题。我们将看到，叠加原理已经通过采用更先进的硬件技术，如阴极射线管和模拟电路来实现。实际上，这部原著是OCR技术主流的源头。“模板匹配法”是广义的叠加原理。

3 试一试的时代

1951年，我开始在美国商业统计局工作。就硬件而言，电子技术是计算机时代的基础。
首先，电子技术使工程师们将OCR视为可能的现实。
然而，在硬件的数量和复杂性方面有很大的局限性。

3.1 模板匹配方法

通过将二维信息投影到一维信息中，基本上降低了复杂度。这种方法是由Kelner和Glauberman[lo]在1956年使用磁移位寄存器来实现的。适当放置的输入字符通过狭缝从上到下垂直扫描，打印输入纸上的反射光通过狭缝传输到光电探测器。这是一个简单的计算，只使用代数加法来获得一个与分割输入字符的狭缝内黑色部分的面积成比例的值。然后将采样值发送到寄存器，将模拟值转换为数字值。模板匹配是通过取每个采样值与相应的模板值之间的差值之和来完成的，每个值都是标准化的。这台机器没有商业化。

这里我们注意到匹配过程中的一个非常重要的点，即注册的一般问题。模板匹配过程大致可分为两个过程，即在上述两种情况下，将输入形状叠加在模板上，测量输入形状与模板的重合度。投影可以水平或垂直进行，这使得叠加过程在一个方向上保持不变。图1清楚地说明了这一点。当狭缝足够长以覆盖输入数字时，.I’轴上投影的黑色区域的值没有变化，即使数字垂直移动。然而，我们需要检测输入数字的起点和终点，以便根据相应的模板注册它。这很容易做到，因为数字都是简单连接的，相邻数字之间的每个间隔都有足够的空间。实际上，投影技术已经被广泛地应用于文档的输入字符串和图像区域的分割，这种处理在OCR术语中被称为预处理。

在这里插入图片描述
上面提到的两个主题告诉我们，字符本质上包含二维信息。如果我们想把维数降到1，那么我们必须扭曲字符的形状，这样机器才能识别它。对于具有少量字符的数字，可以允许这种失真。从这个意义上讲，尽管银行广泛使用MICR，但它的应用非常有限。然而，从人机界面的角度来看，它自然有一个大问题。于是人们开始处理二维信息。

当查看二维信息时，使用光学技术执行模板匹配似乎很自然。
实际上，汉南[11]（RCA集团）在1962年结合了电子学和光学技术制作了一个非常复杂的OCR。当时RCA拥有世界上最先进的电子管技术，在OCR的研究工作中得到了充分的应用。Hannan的论文总结如下：“综上所述，该程序的测试结果证明，RCA光学掩模匹配技术能够可靠地识别出完整的英语和俄语字体的所有字符（需要91个通道）。”但是，基于该技术的商用RCA OCR尚未发布公告。这项伟大的试验在没有继任者的情况下结束了。

计算机的出现在硬件和算法方面影响了OCR的设计，这是很自然的。介绍了一种逻辑模板匹配方法。最简单的方法叫做窥视孔法。我们假设所有的输入都是二进制的。二值化是OCR技术中一个重要的预处理方法。理想情况下，输入字符有两个密度级别，即黑色和白色，通常分别用1和0表示。然而，实际数据并不总是如此。我们稍后再讨论这个问题。这里我们注意到二值化不是一件容易处理的事情。

设想一个二维存储平面，在该平面上按照某种规则存储和注册二进制输入字符，字符位于右上角，如图2所示。显然，对于一个笔划大小和宽度恒定的理想角色来说，黑色部分总是黑色的，白色背景也是如此。然后为黑白区域选择适当的像素，使得所选像素能够区分输入字符和属于其他类的字符。在图2中，可以很容易地构造所谓的逻辑匹配方案，即所谓的窥视孔方法。

在这里插入图片描述

1957年，第一家基于光电技术的光电公司（OCR）被称为Photron公司。所读的字符是由收银机打印的数字。阅读速度为120字/秒（chs），非常高。这是由于使用了简单的逻辑操作。窥视孔的总数为100个，远大于理想的[log2^10]=4，这是获得稳定的真实数据识别所需的。

在ETL，Iijima等人[13]于1958年根据相同的方案设计了OCR。然而，与ERA相比，采用三级逻辑的设计更加系统化，因此效率更高。可识别的字符为72个字母数字；使用10x12网格。在10个像素特征下，共使用44个窥视孔。使用了ETL Mark IV计算机的逻辑电路。实际上OCR是当时ETL计划的一个更大系统的一个组件。它是机器翻译的输入设备。

自相关：如前所述，二维模板匹配在配准中有一个弱点。研究人员意识