在学习《python3网络爬虫开发实践》中安装Tesserocr过程中遇到了很多问题,于是打算分享一下Tesserocr的安装过程和填坑经验.
操作系统为Windows10
1.下载Tesseract
这里选择下载不带dev的稳定版本,下载地址:https://digi.bib.uni-mannheim.de/tesseract/
安装过程中可以选择安装语言包(反正我全选了),一路next即可.
2.添加环境变量
将安装的目录(比如:C:\Program Files (x86)\Tesseract-OCR)添加到系统的环境变量PATH中。
增加一个TESSDATA_PREFIX变量名,变量值为tessdata文件夹的路径,这是将语言字库文件夹添加到变量中.
3.将tessdata文件夹复制到Python安装目录下
这是我碰到的坑之一,不复制的话Python测试Tesserocr时会报错
Traceback (most recent call last