ocr字符识别安装 tesseract

1.配置源,对于CentOS 7,以root身份运行以下命令:
yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update
yum install tesseract 
2.安装支持的语言包
yum search tesseract   查看支持的语言包
yum install tesseract-langpack-eng     安装英语

示例: tesseract-eng(英语),tesseract-ara(阿拉伯语),tesseract–chi-sim(简体中文),tesseract-script-latn(拉丁文脚本),tesseract-script- deva(梵文脚本)等

3.python安装 pytesseract 模块
pip install pytesseract
4. 运行tesseract

Tesseract是一个命令行程序,因此首先打开一个终端或命令提示符。该命令使用如下:

 tesseract imagename outputbase [-l lang] [-psm pagesegmode][configfile...]

在名为’test.png’的图像上使用简体中文执行OCR并将结果保存到’out.txt’的基本用法是:

tesseract test.png out -l chi_sim 

它甚至可以用于一次训练数据的多种语言,例如。英语和德语:

tesseract test.png out -l eng+deu

提示错误:

Error opening data file /usr/share/tesseract/4/tessdata/chi-sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'chi-sim'
Tesseract couldn't load any languages!

解决:
1.首先确认自己的tessdata文件夹里确实含有所用的语言’chi-sim’,
2.再看看该语言拼写是否有误,(我文件夹里的是chi_sim,命令行打成了‘chi-sim’ ==)
3.将TESSDATA_PREFIX环境变量设置为指向 tessdata 语言数据文件夹.
4.github上有全套的语言数据文件,链接如下:tessdata_fast ,可下载至自己的 tessdata 文件夹,
以上基本就能解决问题了。
生成test.txt文件就成功了,提示如下内容可忽略,

Tesseract Open Source OCR Engine v4.1.0-rc1-125-gac7e with Leptonica
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 182
Detected 76 diacritics

参考:
1.https://github.com/tesseract-ocr/tesseract/wiki
2. https://pypi.org/project/pytesseract/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值