在学习python网络数据采集一书中,学习到11章——图片处理时,作者介绍了tesseract-ocr光学文字识别这一内容,随后在安装该工具的过程中遇到了很多的问题,在这里将其全部罗列出来,供读者参考。
1.安装tesseract
tesseract不是python的库文件,因此需要从网上下载安装,安装文件下载请点这里,进入网页后,根据需要选择高亮的蓝色字体进行下载,下载后按默认安装即可。
2.配置tesseract的环境变量
tesseract实际上是在windows命令行模式下使用的工具,因此需要配置其环境变量。配置方法如下:打开我的电脑属性——更改设置——高级——环境变量,在系统变量中添加tesseract的路径。
win+R输入cmd打开命令行工具,输入tesseract -v,出现如下说明即配置成功
3、TESSDATA_PREFIX变量设置
到这一步环境变量配置完成,但是此时直接使用tesseract对图片进行识别会提示错误
例如,在cmd窗口中使用命令t