一、安装python模块
pip3 install pytesseract
二、安装tesseract orc 下载地址:https://github.com/UB-Mannheim/tesseract/wiki 点击“tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe”下载安装。
注意:安装的时候选中中文包。
下载完成后双击,此时会出现如下图所示的页面。
此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。
三. 配置环境变量
为了在全局使用方便,比如安装路径为D:\Program Files (x86)\Tesseract-OCR,将该路径添加到环境变量的path中,
配置完成后在命令行输入tesseract -v,如果出现如下图所示,说明环境变量配置成功
四. python代码测试
可以利用Python代码来测试,这里就需要借助于pytesseract库了,测试代码如下:
from PIL import Image import pytesseract path = "image//tesseract.png" text = pytesseract.image_to_string(Image.open(path), lang='chi_sim') print(text)
执行会出现如下报错:pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
解决方案是找到pytesseract.py文件,如修改该文件 C:\Program Files\Python36\Lib\site-packages\pytesseract\pytesseract.py
将源码中的:
tesseract_cmd = 'tesseract'
更改为:
tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
即可。