使用 pytesseract + tesseract-ocr 进行验证码识别,需要安装的第三方库:pytesseract 、tesseract-ocr,在使用pytesseract 之前,必须安装tesseract-ocr,因为 pytesseract 依赖于tesseract-ocr,否则无法使用。若只是安装了pytesseract,在使用pytesseract打开图片是遇到错误,没有找到文件。报错如下:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH
一、安装pytesseract0.3.10
pip install pytesseract # 下载慢,则开启代理
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pytesseract #清华
pip install -i http://pypi.douban.com/simple/ pytesseract # 豆瓣
二、安装tesseract-ocr5.3.1.20230401(需要手动下载并配置)
点击下载:Home · UB-Mannheim/tesseract Wiki · GitHub,如图:
注意:若尝试多次打不开github,可以产生配置hosts(C:\Windows\System32\drivers\etc),如图:
安装完成后,如图:
配置环境变量:
变量名:path
值:F:\Tesseract-OCR(你的安装路径)
变量名(新建):TESSDATA_PREFIX
值:F:\Tesseract-OCR\tessdata(你的安装路径下的tessdata文件)
打开cmd,键入:tesseract -v,打印版本信息
三、配置pytesseract.py
找到python安装目录下的,\Lib\site-packages\pytesseract的pytesseract.py修改如下:tesseract_cmd = 'tesseract',修改成tesseract_cmd = r'F:\Tesseract-OCR\tesseract.exe'(你安装的tesseract-OCR下的\tesseract.exe)
配置完成后,再运行脚本。就能解决异常问题。
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH