使用pytesseract识别验证码中遇到异常如下:此识别验证码只能识别简单的“白纸黑字"验证码
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
检查源码(image_to_string),发现如下说明:
tesseract_cmd = 'tesseract'
从网上找到相应的‘Tesseract-OCR’下载安装(寻找对应版本):https://github.com/tesseract-ocr/tesseract/wiki
安装后的默认文件路径为(这里使用的是Windows版本):C:\Program Files (x86)\Tesseract-OCR\
此处我没有选择默认路径,是为了减少C盘的容量。我的安装路径是 python下面:
F:\python35
然后更改源代码中的
tesseract_cmd = 'tesseract'
更改为:
tesseract_cmd = 'F:\python35\Tesseract-OCR\\tesseract.exe'
此处一定要注意在windows中的反斜杠加t代表原生的意思,所以在路径反斜杠前面一定要在手动添加一个反斜杠,所以从计算机里面Ctrl+c跟ctrl+v以后还要在手动添加一个反斜杠。
然后再次运行代码就可以解析出图片上面正楷字了。(注意此处解析验证码方法很low,不提倡在高效的代码中使用)