Python爬虫学习环境配置之tesserocr安装的问题与解决

在爬虫过程中会遇到各种各样的验证码,而大多数验证码还是图形验证码,此时可以使用OCR来识别。

OCR

OCR(optical character recognition)是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,他们都是一些不规则的字符。

安装tesseract

tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一个封装,所以核心是tesseract。因此我们先安装tesseract。

tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract

选择合适的版本下载,其中带dev的是开发版本,不稳定,推荐下载不带dev的版本。

如下载:
在这里插入图片描述

下载完后双击并一路next即可,过程中可以选择勾选Addition language data选项安装OCR识别语言包。

安装完成后就可以进行tesserocr安装了

安装tesserocr

打开命令行窗口,输入pip3 install tesserocr pillow进行安装,若没有出错则安装成功。

但是我在安装过程出了错误。如下:

在这里插入图片描述

但是“只要思想不滑坡,办法总比困难多",我们选择wheel进行安装

进入下方链接下载相应whl文件

https://github.com/simonflueckiger/tesserocr-windows_build/releases

然后再去命令行窗口进行安装下载的whl文件

如下:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值