1. pytesseract安装包下载地址:https://digi.bib.uni-mannheim.de/tesseract/
2. 安装配置环境变量,例如:D:\soft1\Tesseract
3. 校验是否安装成功
4. python调用
a. tesseract模块安装:pip install pytesseract
b. 运行过程遇到的坑
1. pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
解决方案:
编辑pytesseract.py文件,修改成tesseract_cmd = 'OCR的安装路径下的tessract.exe'
2. pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file \Program Files (x86)\Tesseract-OCR\chi_sim.traineddata
解决方案:
这是缺少对应的训练文件chi_sim,下载完,直接放到安装位置的tessdata文件夹里就好了。
from PIL import Image import pytesseract text1=pytesseract.image_to_string(Image.open('test1.png'),lang='chi_sim') #设置为中文文字的识别 text2=pytesseract.image_to_string(Image.open('test1.png'),lang='eng') #设置为英文或阿拉伯字母的识别 print(text1) print(text2)