Python爬虫 tesserocr在Mac下的安装使用

最近要用tesserocr这个库处理在爬虫中遇到的验证码问题,但是捣鼓了半天都失败。特地记录下来,以防下次出错

  1. 在Pycharm命令台上使用Homebrew安装ImageMagick和tesseract库:

brew install imagemagick
brew install tesseract --all-languages
如果不行的话,换brew install tesseract 安装

  1. 安装完成后可以看看语言全部装上没有,如果有很多语言输出就代表安装成功

tesseract --list-langs

  1. 测试是否在终端中可以检测图片
    图片地址 https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
    保存或下载。首先用命令行进行测试,将图片下载下来并保存为image.png,然后用tesseract命令测试:

tesseract image.png(图片存放的地址) result -l eng && cat result.txt

运行结果如下:
Tesseract Open Source OCR Engine v3.05.01 with LeptonicaPython3WebSpider
这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result为结果保存的目标文件名称,-l指定使用的语言包,在此使用英文(eng)。然后,再用cat命令将结果输出。
运行结果便是图片的识别结果:Python3WebSpider。可以看到,这时已经成功将图片文字转为电子文本了。
4. 虽然终端可以识别了,但是在python中调用这个包依然是失败的,所以还需要导入tesseract包

pip install tesserocr pillow

但是这步会出错,譬如gcc找不到这样的,所以需要这样写:

sudo CFLAGS="-mmacosx-version-min=10.14" pip3 install tesserocr
因为是mac电脑,所以要选择适合自己版本下载,版本在左上角的苹果–>关于本机中可以看到

把10.14换成自己电脑的版本就可以了。
安装成功后还需要下载一个Image包对图片进行读取,所以pip install Image
导入过程中可能会出现导入名字错误情况,选择重启或者先不管。输入我们的测试代码
方法一:

import tesserocr
from PIL import Image
image = Image.open('/Users/Desktop/image.png')
print(tesserocr.image_to_text(image))

方法二:

import tesserocr
print(tesserocr.file_to_text(' /Users/Desktop/image.png'))

识别成功,可以使用~

完~~

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值