Tesseract-OCR 的使用与训练

Tesseract,是一个开源文本识别 (OCR) 引擎,是由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,可以不断的训练自己的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

安装

百度搜索Tesseract,选择适合的版本安装,如安装位置D:\Tesseract-OCR,安装完成之后,增加环境变量TESSDATA_PREFIX,指向到D:\Tesseract-OCR\tessdata,在Path环境变量中增加D:\Tesseract-OCR。

如果需要识别中文,下载中文语言包,下载地址https://digi.bib.uni-mannheim.de/tesseract/tessdata_fast/,下载完成后放到D:\Tesseract-OCR\tessdata目录下面

检查是否安装成功

通过tesseract --version命令如果能看以下相关信息,说明安装成功

在这里插入图片描述

测试

使用命令行测试

打开命令行窗口,输入 tesseract test.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值