Tesserocr 的安装及一些失败处理(windows环境)

Tesserocr 是 Python 的一个 OCR 识别库,但其实是对 Tesseract 做的一层 Python API 封装,所以它的核心是 Tesseract,所以在安装 Tesserocr 之前我们需要先安装 Tesseract,本文用来记录安装流程以及安装过程中遇到的一些问题和处理方式。

第一步,下载 Tesseract
Tesseract为 Tesserocr 提供了支持,下载链接为:http://digi.bib.uni-mannheim.de/tesseract/。这里我直接下载的最新版:(注意其中文件名中带有 dev 的为开发版本,不带 dev 的为稳定版本,可以选择下载不带 dev 的版本。)
在这里插入图片描述
下载完成后双击运行,按照提示一步步next就行,如果想要提前多下载一些语言,则需要勾选Additional language data(download),但是如果勾选了该选项也会增加安装耗时,自己根据需要选择(笔者因为要用到多国语言识别,所以勾选了该选项):
在这里插入图片描述
之后就是漫长的等待安装下载过程~

第二步:添加环境变量
1,下载完成后,复制安装路径,我的安装路径是D:\python\download\Tesseract-OCR,打开电脑系统属性→高级→环境变量,在path下新建Tesseract-OCR的环境变量,添加之后,记得所有确定都点击!
在这里插入图片描述
2,增加一个TESSDATA_PREFIX变量名,变量值为我的语言字库文件夹安装路径F:\Tesseract-OCR\tessdata 添加到变量中;如下图:
在这里插入图片描述

如果没有添加TESSDATA_PREFIX的变量,执行命令会出现如下错误:
![在这里插入图片描述](https://img-blog.csdnimg.cn/56f222b636e74f5ca365ea238a5f14bb.png
第三步:安装Tesserocr
这里在直接使用pip安装时,总是出错:
在这里插入图片描述
于是采取镜像安装的方法:先在whl下载地址(https://github.com/simonflueckiger/tesserocr-windows_build/releases)下载和自己python版本以及电脑操作系统对应的whl文件,比如笔者是python3.7,64位操作系统,就应该下载如下版本:
在这里插入图片描述
然后再pip install 镜像文件地址,镜像文件可以直接拖入install后面,即可迅速安装成功:
在这里插入图片描述
第四步,代码验证安装成功
我随便截了张图作为样例图片进行测试:
在这里插入图片描述

代码如下:

import tesserocr
from PIL import Image
image = Image.open('test.jpg')
print(tesserocr.image_to_text(image))

结果出现如下报错:
在这里插入图片描述
解决方法:打开报错的位置,D:\python\python3.7,没有tessdata文件才报错,于是将原本D:\python\download\Tesseract-OCR\tessdata路径下的tessdata文件复制到改路径下:
在这里插入图片描述
然后再次运行代码,就可以成功识别到文字啦:
在这里插入图片描述

参考链接:https://segmentfault.com/a/1190000039929696
https://blog.csdn.net/moxiao1995071310/article/details/82630996

  • 10
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值