首先需要安装tesseract-ocr,可以直接从网上下载,当然也可以使用源码编译,因为是在Python中使用,可以不需要自己从源码编译成指定的版本。因此我们直接从官网下载
打开这个网址https://github.com/UB-Mannheim/tesseract/wiki
选择tesseract-ocr-w64-setup-v4.1.0.20190314 (rc1)这个版本进行下载,tesseract-ocr 64位版本下载,下载完后进行安装,在安装的过程中我们可以选择自己需要的额外语言包,当然语言库也可以等安装后自己从网上单独下载。
我在这里额外选择了中文和数学的语言包
编辑环境变量,在path里添加tesseract.exe所在目录,对于我的电脑是E:\Tesseract-OCR4.1
设置语言库的环境变量,也即是tessdata目录
新建系统变量,变量名:TESSDATA_PREFIX
变量值:E:\Tesseract-OCR4.1\tessdata
保存退出,将电脑重启,使环境变量生效。
安装Python的tesseract库,使用命令
pip install pytesseract
有的网上教程也是用tesserocr这个第三方库,虽然tesserocr和pytesseract使用的方法完全一样,但推荐使用pytesseract。
安装成功后就可以使用了
import pytesseract
from PIL import Image
img=Image.open('test.png')
code=pytesseract.image_to_string(img,lang='chi_sim+eng')
print(code)
下图为识别结果