Tesseract-OCR 字符识别---样本训练

本文介绍了如何使用Tesseract-OCR进行字符识别,并通过训练样本生成自定义语言库,以提高识别率。首先,文章概述了Tesseract的基本功能和语言支持。然后,详细讲解了从安装Tesseract到使用默认语言库识别图像的步骤。接着,重点介绍了训练样本的过程,包括使用jTessBoxEditor工具、创建和编辑BOX文件、生成traineddata文件。最后,展示了使用训练后语言库识别图像的改进效果。
摘要由CSDN通过智能技术生成

        Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上。地址为http://code.google.com/p/tesseract-ocr/


使用默认的语言库识别


1.安装Tesseract

        从 http://code.google.com/p/tesseract-ocr/downloads/list下载Tesseract,目前版本为Tesseract3.02。因为只是测试使用,这里直接下载winodws下的安装文件tesseract-ocr-setup-3.02.02.exe。安装成功后会在相应磁盘上生成一个Tesseract-OCR目录。通过目录下的tesseract.exe程序就可以对图像字符进行识别了。
2.准备一副待识别的图像,这里用画图工具随便写了一串数字,保存为number.jpg,如下图所示:
        

3.  打开命令行,定位到Tesseract-OCR目录,输入命令:

 tesseract.exe
评论 27
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值