最近在学习python爬虫的使用,第一步就是安装python的类库。但是在使用tesseract的时候遇到了问题,
使用的版本: tesseract :3.05.01dev python: 3.7.3
安装步骤如下:
1、上tesseract官网安装tesseract.exe(windows) https://digi.bib.uni-mannheim.de/tesseract/,保留下tesseract的安装路径,lz的路径是安装在c 盘的,C:\Program Files (x86)\Tesseract-OCR,也可以安装到其他的盘上,但是一定是要exe的安装路径。
2、 pip install tesseract 使用pip安装tesseract第三方包
3、 tesseract image.png result -l eng && cat result.txt 执行,首先进去image.png的文件夹下,然后打开cmd输入前面的内容, 作用:将sseract识别出的文字保存到result.txt中
4、直接报错
原因:没有设置语言包的上层路径,tesseract需要根据语言包来进行文字的识别,需要在环境变量中添加语言包的上层路径才能找到这个语言包。
解决方法:在环境变量中 添加系统变量:TESSDATA_PREFIX 值为C:\Program Files (x86)\Tesseract-OCR
并重启,Win10一定要重启