我的中文ocr——从miniocr说起_mini occ的作用-CSDN博客

本文链接：https://blog.csdn.net/serenitymoon/article/details/6066476

本文地址：http://blog.csdn.net/SerenityMoon/archive/2010/12/09/6066476.aspx转载请注明出处。

众所周知，现在已经有很多成熟的ocr产品，但是这些ocr产品都有一个共同的特点就是对小字符图片的识别效果很差，而这样的缺陷也催生了马飞涛先生的miniocr的诞生。

我开始做文字模式识别前，没有任何基础，甚至对模式识别都所知甚少。文字识别可查的资料更是少的可怜，几乎没有什么有用的信息，这段时间的确是一段非常痛苦的开始。miniocr的简介非常简单，我一个字一个字的读完也没有为我提供太多有用的信息。从其他一些资料上可以看到的关于文字识别也通常是只有简单的几行描述，能够搜索到的代码也都是关于手写体识别或者数字识别的。就是靠着这些只言片语，我一点一点的试验摸索，走到了现在。目前对汉字的识别尤其是小四号字以下字体、字母数字的识别效果非常好，四号字体以上的稍差一点，对中英文字符的区分还正在优化中。

我做做这个东西目的和miniocr的起源是差不多的，所面对都是小字符图片的文字识别，不同的是我所面对的需要更多的处理一张图片中可能只有两三个字、字符下面带背景的情况。而miniocr对这两种情况的识别效果基本为0，尤其是像地图这样的文字排列杂乱无章的情况，程序直接崩溃。这就说明miniocr的字符切分算法使用了大部分ocr产品使用行列分别进行切分的切分方式，这种切分方式默认文字的排列是成行的，所以对不成行的情况下的切分无能为力了。

对于图文混排情况下的文字模式识别，文字切分的好坏直接决定了文字识别的效果。由于考虑到图片中文字数可能会很少甚至有类似于地图的文字排列情况，我放弃了使用通用的行列切分的方法。经过试验，采用基于区域生长的方式来搜索文字区域。从疑似文字区域的一个像素点出发，生长出整个文字区域，然后通过多种校验手段来判断这个区域是否是文字区域，事实验证我的这个方法行至有效。几张实际的切分效果图如下所示：

我的ocr文字切分算法效果图1