tesseract ocr 安装及使用

本文详细介绍了如何通过pip安装pytesseract库,下载并配置Tesseract-OCR支持多语言,以及如何设置环境变量。还提供了Python代码测试和解决常见错误的方法,确保读者能顺利进行OCR识别工作。
摘要由CSDN通过智能技术生成

 

一、安装python模块

pip3 install pytesseract

二、安装tesseract orc 下载地址:https://github.com/UB-Mannheim/tesseract/wiki 点击“tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe”下载安装。

注意:安装的时候选中中文包。

下载完成后双击,此时会出现如下图所示的页面。

此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。

三. 配置环境变量

为了在全局使用方便,比如安装路径为D:\Program Files (x86)\Tesseract-OCR,将该路径添加到环境变量的path中,

配置完成后在命令行输入tesseract -v,如果出现如下图所示,说明环境变量配置成功

四. python代码测试

可以利用Python代码来测试,这里就需要借助于pytesseract库了,测试代码如下:

from PIL import Image
import pytesseract

path = "image//tesseract.png"

text = pytesseract.image_to_string(Image.open(path), lang='chi_sim')
print(text)

执行会出现如下报错:pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path

解决方案是找到pytesseract.py文件,如修改该文件  C:\Program Files\Python36\Lib\site-packages\pytesseract\pytesseract.py

将源码中的:

tesseract_cmd = 'tesseract'

更改为:

tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'

即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值