Tesseract OCR的下载安装和启动

最新推荐文章于 2023-08-22 19:38:59 发布

cldh1492

最新推荐文章于 2023-08-22 19:38:59 发布

阅读量477

点赞数

文章标签：操作系统

Tesseract是一个OCR库，目前由Google赞助。它是目前公认最优秀、最精确的开源OCR系统。除了极高的精确度，Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以)，也可以识别出任何Unicode字符。

Tesseract OCR下载地址：

https://github.com/UB-Mannheim/tesseract/wiki

选择较新版本的for Windows安装包，这里选择tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe安装包。

安装时最好勾选简体中文语言包和常用数学公式包，以便能够识别简体中文和数学字符，默认安装路径为C:\Program Files (x86)\Tesseract-OCR。

添加环境变量：

path中添加路径C:\Program Files (x86)\Tesseract-OCR

添加新的环境变量TESSDATA_PREFIX，值为C:\Program Files (x86)\Tesseract-OCR\tessdata

在cmd中输入tesseract -v, 如显示以下界面，则表示Tesseract安装完成且添加到系统变量中。

Linux 用户可以通过apt-get安装：

$sudo apt-get tesseract-ocr

运行测试：

创建字符图片p1.png

在Windows命令行中执行

tesseract p1.png p1 -l chi_sim+equ+eng

说明：

p1.png是当前目录中的图片

p1.txt是指定结果输出文件，默认为txt文件，因此这里扩展名不需输入

-l是指定使用的包

chi_sim是中文识别包，equ是数学公式包，eng是英文包，不指定语言包时默认使用英文包

举个例子，E:\下有一张图片p1.jpg

开始识别

识别结果

只识别错了一个字，识别率还是不错的。说明一下，Tesseract对于彩色图片的识别没有黑白图片的效果好，所以实际识别时最好能对图片进行降噪预处理，去掉彩色和杂质，以提高识别的准确度。

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/28974745/viewspace-2218658/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/28974745/viewspace-2218658/

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Tesseract OCR的下载安装和启动

Tesseract是一个OCR库，目前由Google赞助。它是目前公认最优秀、最精确的开源OCR系统。除了极高的精确度，Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以)，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。