1、pip命令安装
pip install pytesseract
pip install Pillow
2、使用pycharm编辑器安装,如下操作步骤。
安装成功:
安装pytesseract时,同时安装pillow,所以我们只需安装pytesseract即可。
安装识别引擎tesseract-ocr
1.Tesseract是开源的OCR引擎。Tesseract最初设计用于英文识别,经过改进引擎和训练系统,它能够处理其它语言和UTF-8字符。Tesseract 3.0能够处理任何Unicode字符,但并非在所有语言上都工作得很好。(我直接勾选下载的中文扩展包,默认不支持)
软件链接:https://pan.baidu.com/s/1KvS7s5How_am3uDBnfUmuQ
提取码:5wzr
安装成功后需要配置2处环境变量。
把刚才的安装路径“E:\tesseract-ocr\tesseract\Tesseract-OCR”添加到红线划的PATH
增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径“E:\tesseract-ocr\tesseract\Tesseract-OCR\tessdata”
这是将语言字库文件夹添加到变量中;
接下来就可以测试代码了
from PIL import Image import pytesseract #上面都是导包 text=pytesseract.image_to_string(Image.open('xinxi.jpeg'),lang='chi_sim') print(text) 效果