OCR 脱机手写汉字识别与印刷汉字识别

最新推荐文章于 2024-02-02 15:30:51 发布

金丝鬼

最新推荐文章于 2024-02-02 15:30:51 发布

阅读量681

点赞数

本文链接：https://blog.csdn.net/hggugfn/article/details/83857489

版权

分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow

也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！

4 “最后的堡垒”——脱机手写汉字识别

4.1 攻克堡垒待创新

脱机手写汉字识别的用途是把手写字符用字符阅读器自动输入计算机，常用于信函分拣、银行支票识别和统计报表处理以及手写文稿的自动输入。

从工作原理上说，脱机手写汉字识别和印刷汉字识别是一样的。但是由于手写汉字字形变化大，上一章中介绍的各种印刷汉字识别特征和方法不完全适用，目前也还没有一套行之有效的识别方法。这是汉字识别最困难的问题，被认为是模式识别领域最后的一个堡垒。

近几十年来各国学者做了很多研究工作，提出了一些思路和方法。但是目前还没有哪一种方法能够解决自由书写的汉字识别问题，已发表的一些实验系统的性能也都不够好，难于付诸实用。因此，在这一章中我们只能择要分析手写汉字的特点，讨论手写汉字脱机识别的主要问题和困难，介绍解决问题的途径、方法以及目前的研究水平；鉴于建立“标准”手写汉字库是开展手写汉字识别研究的基础，因而本章将介绍几种国内外所建立的手写汉字库，供读者参考。我们希望我国能有更多的科技工作者、特别是青年学者踊跃参加中文信息处理的研究，开拓进取，勇于创新，更好更快地攻克这个堡垒。

4.2 手写汉字脱机识别的困难

手写汉字脱机识别跟印刷汉字识别系统同属光符阅读器OCR的范畴。它们的识别对象都是二维的方块汉字，工作原理相同，系统构成也基本相似，但手写汉字脱机识别问题更多，困难更大。

手写汉字脱机识别为什么那么困难呢？我们认为：最根本的原因是手写汉字的字形变化太大！我国有一句俗语：“人心不同，各如其面”。这句话对手写汉字的字形也完全适用。可以说，不同的人书写的字是千差万别，各不相同，即使是同一个人所写的同一个字，往往也因时、因地而有明显的变化。我们知道，脱机汉字识别的对象是方块汉字的图形，用于识别的特征是根据汉字图形提取的，因而字形变化对识别结果具有决定性的影响。为了使读者对手写汉字字形的变化有更具体的了解，下面以几种不同来源的手写汉字字样为例，具体加以说明。

图4.1是几种手写汉字的字样。其中图4.1(a)是某种钢笔字帖的字样，这些字写得十分工整，基本上是标准的手写楷书，但它们跟印刷体汉字（包括印刷体的楷书）还有明显的差异。图4.1(b)是我国IAAS-4M手写汉字库的一些字样，在这个字库中，这些字样的质量属于优等。图4.1(c)是常见的一些手写汉字，显然其字形跟印刷体汉字的差别更大，而且笔画形状和结构更缺少规律性。

从上述几种字样可以看出手写汉字的一些特点：

①基本笔画变化。印刷体汉字的笔画基本上是横平竖直，折笔（乛、乙、く）的拐角大都是尖锐的钝角、锐角或直角，因而折笔基本上可以看做是由折线段所组成。我国手写汉字的笔画大都不具备上述的特点：横不平、竖不直，直笔画变弯，折笔的拐角变为圆弧，等等，例如，“品”字的三个“口”变成三个圆圈，“阝”变成“”；有时把较短的笔画变为“点”，有时则在起笔或折笔的拐角处增加额外的“笔锋”，如图4.1(a)的“怕、杆、史”等。

②笔画该连的不连，不该连的相连，这种情况十分普遍。它不是由于干扰等客观原因而产生，主要是由于书写者的习惯而造成的。应，笔画的长短及部件的大小也发生变化。以图4.l(a)的钢笔字帖为例，“担、打、报、择”几个字的偏旁“扌”，其竖笔</PGN0084.TXT/PGN>长短不一，“阳、队、陈、陶”的部首“阝”也大小不同，它们在整字中的位置就有差异。方块汉字字形是一种艺术，书写时要求笔画及部件的形态和相互关系，尽量彼此协调，使整字字形结构匀称美观，因此上述笔画与部件的大小、位置变化，客观上是不可避免的。此外，由于书写者文化水平、习惯等的不同，他们所写的字差别就更大。图4.1(c)的样本属于比较工整的字样，但是不难看出，字形变化仍相当明显。这说明即使是同一个人写的字也有一定的差异。笔画长短、部首大小及位置等的变化，使我们难以仿照印刷体汉字识别的办法事先确定它们的位置，按规定区域提取笔画或部

首特征。

a)一种钢笔字帖的字样；(b)我国IAAS-4M手写标准汉字库字样；(c）一般的手写字字样

图4.1 几种手写汉字的字样

上面讨论的几种手写字样大体上都是比较工整的楷书，它们字形尚有明显的差别，更何况日常见到的各种手稿或书信中的字，其差别会更大。我国主要的手写字体有楷书、行书和草书三种，如图4.2所示。可以看出，同一个字的笔画和字形几乎迥然不同，相差甚远。草书的字甚至文化较高的人有时也不认识，要求计算机能自动识别这样的手写字显然是不可能，也是不合理的。

因此，对用于计算机自动识别的手写汉字应有所要求。具体地说，对构成汉字的笔画及其相互关系，应有必要的规定和限制，不能无约束地随意书写。这种字叫做“限制性手写汉字”。显然，这种限制不能太严，规定不能过于复杂，否则用户难以适应，识别系统也不容易推广应用。另一方面，对书写的要求也不宜太宽，否则难以使系统具有足够高识别率。这是一个不容易解决的矛盾。通常对书写的基本要求有如下几点：

①书写工整，笔画横平竖直，粗细均匀；

②不同笔画不连笔书写，联机识别时，应按常规笔顺书写。

③每个字符应写在规定方格内（通常为6mm×6mm～12mm×12mm），字符大小尽量一致，笔画不应超出方格。

上述要求并不复杂，但实际上很难完全做到，即使是文化水平较高的人，除非曾经受过书写工程字的训练，否则也不易按上述规定自始至终地书写。这就是手写字符识别的困难所在。

4.3 联机手写汉字识别系统的“课本”——手写汉字样本库

现在来讨论建立“标准的”手写汉字样本库的问题。

建立标准的手写汉字库是开展手写汉字识别的基础。这是因为：其一，研究者必须拥有被研究的对象才能进行研究工作。这跟学生上学一样，必须先有课本才能学习。计算机也必须先有汉字字样才能进行训练，学习识字。其二，这种字符库最好是“标准的”、为多数研究者所采用的，这样才能对各种识别方法的优劣进行比较，也有利于识别系统的推广应用。

但是，如上所述，手写汉字以及数字、字母等字符的图形随意性很大，很难有科学的方法对它们加以描述，也很难提出合理的、可操作的规范对它们加以刻画；因此，至今还没有满意的、具有权威性的手写汉字库。在手写字符识别研究初期，为了工作需要，有的研究单位，如加拿大的Concordia大学和日本的一些公司，不得不自己设法建立供研究用的手写字符库，同时也制订了一些标准和要求，对书写的格式和工具等施加一定的限制，力求使所建立的手写字符库能满足实际应用的要求。近10多年来各国建立的手写字符数据库已逐渐增多，如美国国家标准局所属OCR委员会制定的NIST手写字符数据库，日本电子技术研究所的ETL系列手写体汉字库等。20世纪80年代中期以后，在我国863计划支持下，中国科学院自动化所建立了IAAS-4M手写体汉字样本库，其后清华大学、北京邮电大学和华南理工大学等单位也建立了各自的手写体汉字样本库。下面择要介绍几种手写汉字库的特点，供读者参考。

1）ETL手写字符库

日本电子技术综合研究所（ETL）于1984年建立了一个名为ETL-8的手写字符库，收集了日本教学用的881个汉字和75个假名，1984年后扩充至3000个汉字。

图4.3是ETL-8的样张片段。可以看出，这种手写汉字相当工整，几乎可以和印刷体汉字相比拟；基本笔画大体上保持平直，因而通常把它叫做“手写印刷体汉字”。这可能与日本人的书写习惯有关，但也许是考虑到适应计算机自动识别的需要，因而对书写提出较严格要求的缘故。顺便指出：日本学者发表的有关手写汉字识别研究的文章中，其识别率大多在95％以上，可能跟采用这种工整的手写汉字库有关。

2）IAAS-4M手写汉字样本库

我国中科院自动化研究所于1980年开始从事建立手写汉字样本库的工作，1988年建成了IAAS-4