Tesseract-OCR 下载安装和使用

Tesseract,一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。


1、下载安装包
分享链接:百度网盘 请输入提取码
提取码:sukc


2、打开安装,需要选择的选项,看下图。其中语言要选择简体中文,安装时会下载语言包,可能等待一段时间。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


3、若需要下载识别其他语言的字符,可进入官网直接下载对应语言包,下载完成后放到Tesseract-OCR\tessdata\tessconfigs下即可。


4、设置环境变量,进入环境变量中,找path,新建路径。如图
在这里插入图片描述


5、查看是否安装成功,打开cmd,输入tesseract4 -v回车,若显示版本号即为安装成功。如图:
在这里插入图片描述


6、若使用python操作,需要打开cmd管理员模式,下载pytesseract模块,进行图片文字识别功能,如图:
在这里插入图片描述

7、关闭pycharm,重启即可使用。

------------------------------------------------------------------------------------------------------------------------------

tesseract的安装使用及配置问题解决
一、安装tesseract
二、配置环境变量
三、cmd方式中出现的问题及解决方法
四、 pycharm方式中出现的问题及解决办法
五、验证结果


一、安装tesseract
1 OCR,即Optical Character Recognition:光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。
2 tesseract下载地址:
https://digi.bib.uni-mannheim.de/tesseract/
1.
3 如下图所示,将下载之后的.exe文件进行安装。.
4 在安装的过程中,安装的路径一般是:
C:\Program Files (x86)\Tesseract-OCR,可以不用修改。
5 然后一直点击next,直到下面下面这张图。此时可以勾选**Additional language data(download)**选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,比如可以选择math,英文,中文等。然后一路点击Next按钮即可。
二、配置环境变量
1 为了在全局使用方便,比如安装路径为:
C:\Program Files (x86)\Tesseract-OCR,将该路径添加到环境变量的path中。
2 路径:高级系统设置——>环境变量——>系统变量中path路径——>将C:\Program Files (x86)\Tesseract-OCR添加进去。

3 配置完成后在cmd中输入tesseract -v,如果出现如下图所示,说明环境变量配置成功。


三、cmd方式中出现的问题及解决方法
1 下面,将在cmd中使用tesseract来进行文字的识别。
2 从网上随便找了一张英语图片,如下图所示。
3 将该图片命名为image1.jpg,然后放在G盘里面。然后使用cmd先到G盘,然后使用tesseract命令进行测试。
tesseract image1.jpg result
1.
这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result 为结果保存的目标文件名称。

4 输入上述代码回车后,出现了以下的报错提示。
Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
1.
2.
3.
4.
5.
5 报错是意思是缺少环境变量TESSDATA_PREFIX,导致无法加载任何语言,就不能初始化tesseract。解决的方法也很简单,在环境变量——>系统变量中添加TESSDATA_PREFIX,如下图:
注(地址复制时是右斜杠 “\”,但是需要改成 左斜杠"/" 符号,如下图划红线处)
6 配置完成后,重新打开cmd,即可正常使用。
7 验证结果:
如下图所示,使用cmd进行验证。
四、 pycharm方式中出现的问题及解决办法
1 为了在pycharm代码中使用tesseract功能,使用pip安装pytesseract:在pycharm中pip下面语句。
pip install pytesseract
1.
2将图片放入pycharm所建的工程文件夹下
3 利用代码来测试,在pycharm中运行如下代码,这里就需要借助于pytesseract库了,测试代码如下:
from PIL import Image
import pytesseract

text = pytesseract.image_to_string(Image.open("image1.jpg"))
print(text)
1.
2.
3.
4.
5.
首先利用Image读取了图片文件,然后调用了pytesseract的image_to_string()方法,再将其识别结果输出。

4 但是却出现了以下类似的错误。
Traceback (most recent call last):
  File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 170, in run_tesseract
    proc = subprocess.Popen(cmd_args, **subprocess_args())
  File "D:\Python36\lib\subprocess.py", line 709, in __init__
    restore_signals, start_new_session)
  File "D:\Python36\lib\subprocess.py", line 997, in _execute_child
    startupinfo)
FileNotFoundError: [WinError 2] 系统找不到指定的文件。

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "D:/python/20180911.py", line 4, in <module>
    text = pytesseract.image_to_string(Image.open(r'D:\chromeDownload\image.png'))
  File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 294, in image_to_string
    return run_and_get_output(*args)
  File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 202, in run_and_get_output
    run_tesseract(**kwargs)
  File "D:\Python36\lib\site-packages\pytesseract\pytesseract.py", line 172, in run_tesseract
    raise TesseractNotFoundError()
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
5 解决方法:
pytesseract安装后,在python的Lib目录下site-packges下会生成一个pytesseract文件夹,在文件夹中找到pytesseract.py,使用记事本之类软件打开pytesseract.py,找到如下:
tesseract_cmd = 'tesseract'
1.
6 将tesseract_cmd = 'tesseract’修改为:
tesseract_cmd = ‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe’
(注意左斜杠和右斜杠)
表示tesseract_cmd配置的是你安装tesseract的绝对路径,这样就能找到tesseract了。修改后保存,再去运行python代码,就可以成功了。
7 验证结果:
五、验证结果
1,在验证的过程中,发现英文字母的识别率比较高,中文的会有些问题。
2,注意配置完成后,关机重启,或者关闭cmd重新打开试试。
3,每个人的电脑都或多或少的不一样,可能按照这种方式进行修改之后依旧不能运行。我在配置自己电脑的时候,也看了很多帖子,配置了好几遍,总是感觉很玄学,多多尝试。
------------------------------------------------------------------------------------------------------------------------

下载
以下是关于Tesseract的常用网址
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
官方网站:https://github.com/tesseract-ocr/tesseract
官方文档:https://github.com/tesseract-ocr/tessdoc
语言包地址:https://github.com/tesseract-ocr/tessdata
一、安装
1.开始安装


2.许可协议
3.选择要安装的用户


4.选择附带要安装的语言包


5.设置安装目的地址,后续设置环境变量时需要用到。


6.选择要创建程序快捷方式的启动菜单文件夹,一般默认即可

7.完成安装


二、设置环境变量
1、进入环境变量中,在path中新建tesseract的安装路径使用win+r弹出“运行”命令框,输入sysdm.cpl打开系统属性。


2.在“高级”中打开“环境变量”


3.在“系统变量”中找到“Path",双击进入


4.加入安装过程中设置的地址


之后连续点击确定三次,依次关闭这三个窗口。

三、安装检验及语言包拓展

1.查看是否安装成功
打开cmd,输入tesseract -v回车,若显示版本号即为安装成功。

2.查看已经安装的语言
在cmd中输入tesseract --list-langs回车,若显示版本号即为安装成功。

3.拓展语言包
在下载步骤中找到语言包地址的链接,下载所需要的的语言包


下载后将该包直接放在程序安装目录的tessdata文件夹中里面即可,如图

-------------------------------------------------------------------------------------------------------------

Tesseractocr中文版下载-Tesseractocr中文版安装包下载_3DM软件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值