Tesseract-OCR 字符识别---样本训练

最新推荐文章于 2024-08-17 23:55:12 发布

置顶

firehood

最新推荐文章于 2024-08-17 23:55:12 发布

阅读量5.5w

点赞数 15

本文链接：https://blog.csdn.net/firehood_/article/details/8433077

版权

本文介绍了如何使用Tesseract-OCR进行字符识别，并通过训练样本生成自定义语言库，以提高识别率。首先，文章概述了Tesseract的基本功能和语言支持。然后，详细讲解了从安装Tesseract到使用默认语言库识别图像的步骤。接着，重点介绍了训练样本的过程，包括使用jTessBoxEditor工具、创建和编辑BOX文件、生成traineddata文件。最后，展示了使用训练后语言库识别图像的改进效果。

摘要由CSDN通过智能技术生成

Tesseract是一个开源的OCR（Optical Character Recognition，光学字符识别）引擎，可以识别多种格式的图像文件并将其转换成文本，目前已支持60多种语言（包括中文）。 Tesseract最初由HP公司开发，后来由Google维护，目前发布在Googel Project上。地址为http://code.google.com/p/tesseract-ocr/。

使用默认的语言库识别

1.安装Tesseract

从 http://code.google.com/p/tesseract-ocr/downloads/list下载Tesseract，目前版本为Tesseract3.02。因为只是测试使用，这里直接下载winodws下的安装文件tesseract-ocr-setup-3.02.02.exe。安装成功后会在相应磁盘上生成一个Tesseract-OCR目录。通过目录下的tesseract.exe程序就可以对图像字符进行识别了。

2.准备一副待识别的图像，这里用画图工具随便写了一串数字，保存为number.jpg，如下图所示：