在Windows下安装tessocr,首先需要下载tesseract,它为tesserocr提供了支持。
tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/
进入下载页面,可以看到有各种.exe文件的下载列表,
其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,需要安装 "tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe",因为要与 tesserocr-2.2.2 匹配。
下载完成后双击,一路next
此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。
接下来,再安装tesserocr即可,此时直接使用pip安装:
1 | 首先可能得先升级你的pip 版本 python -m pip install --upgrade pip
pip3 install tesserocr pillow |
参考以上步骤,在安装tesseract时顺利,但是注意,要将tesseract的安装路径添加至两个环境变量,一个是path,一个是新建和环境变量TESSDATA_PREFIX,这样在cmd下运行tesseract -v可以查看到版本,证明安装成功。
坑:
安装tesserocr是一开始报错“缺少Microsoft visual studio 14.0”于是进行安装
继续pip,又报错,“缺少cl.exe”,发现是VS不会默认安装C++,于是又把C++装上
继续pip,又报错“cl.exe” failed with exit status 2,继续查找原因,
发现这里一定要通过独立的 .whl
文件安装,不要通过 pip3 install tesserocr
直接安装,因为在 Windows 上会失败——这种方式只能用于 Linux
好像还有另一种安装方法,下载tesserocr的whl文件,然后再pip
成功方法:
whl安装包下载链接:https://github.com/simonflueckiger/tesserocr-windows_build/releases
选择合适的版本下载 运行
pip3 install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
当我下载tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 进行安装时:
发现报错,原因:python版本不适应下载的whl文件
查看Python对应的whl文件版本
cmd中输入:python
>>>import pip
>>>import pip._internal
>>>print(pip._internal.pep425tags.get_supported())
查看到对应的版本为cp36,cp36m,win32,之前下载安装的版本为win_amd64,版本冲突。
重新下载tesserocr-2.2.2-cp36-cp36m-win32.whl 进行安装
终于成功安装tesserocr。
注意:cp36是指python的版本号,python要用3.6,不要用3.7,否则这种方法也报错
备注:tesserocr和pilloww分开安装的,pip3 install pillow一次成功,主要在解决tesserocr的问题。