原文: An Overview of the Tesseract OCR Engine
下载地址http://code.google.com/p/tesseract-ocr/wiki/Documentation
Tesseract的识别步骤大致如下:
1. 连通区域分析;
2. 检测出字符区域区域(轮廓外形),以及子轮廓;
3. 由字符轮廓,得出文本行,以及通过空格识别出单词,通过字符单元分割出单个字符,而对百分号的文本(Proportional text)通过fuzzy空格来分割为单词;
4. 每个单词进行分析,采用自适应分类器,分类器有学习能力,先分析的且满足条件的字母也作为训练样本,所以后面的字符(比如页尾)的字符识别更精确;此时,页首的字符识别比较吃亏,所以tesseract会对整页的识别不太好的字符,再次进行识别。
5.最后,识别含糊不清的空格,及用其他方法,如由笔画高度(x-height),识别小写字母的文本。