对于没使用anaconda的我,是这样安装tesserocr的。
首先安装tesseract
在https://digi.bib.uni-mannheim.de/tesseract/里找到非dev的稳定版本,对应py3.5的tesseract-ocr-setup-3.05.01-20170602.exe。
双击安装后,选择additional language data(download)支持多语言。
安装完毕后,配置环境变量,把tesseract的安装路径加入path里,再新增环境变量名为TESSDATA_PREFIX,值也为tesseract的安装路径。
在cmd中,试一下命令,可行。
找一张图形验证码,试一下
tesseract image.png result -l eng && type result.txt
可以输出验证码字母。
接着安装tesserocr
直接执行
pip install tesserocr pillow
结果报错Microsoft Visual C++ 14.0 is required
需要在https://github.com/simonflueckiger/tesserocr-windows_build/releases下载与已安装的tesseract对应的tesserocr的whl文件。
然后 pip install 这个whl文件,即可。
这时我发现在cmd中可以import tesserocr, 在pycharm中却不能import。
错误如下
Traceback (most recent call last):
File "c:\Users\NewJune\test.py", line 4, in <module>
print(tesserocr.image_to_text(image))
File "tesserocr.pyx", line 2400, in tesserocr._tesserocr.image_to_text
RuntimeError: Failed to init API, possibly an invalid tessdata path: C:\Python36\
有一种可能是pycharm的interpreter的path应该调整为与终端一致,
以下命令用来查看interpreter path
import sys
print sys.executable
我不是因为这个,经过查看,将tesserocr安装目录下的tessdata文件夹复制到当前编译器的scripts目录下即可。