Python爬虫 tesserocr在Mac下的安装使用

最新推荐文章于 2024-04-15 17:45:00 发布

大笨熊哥哥

最新推荐文章于 2024-04-15 17:45:00 发布

阅读量1.6k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/a13532865022/article/details/100121153

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近要用tesserocr这个库处理在爬虫中遇到的验证码问题，但是捣鼓了半天都失败。特地记录下来，以防下次出错

在Pycharm命令台上使用Homebrew安装ImageMagick和tesseract库：

brew install imagemagick
brew install tesseract --all-languages
如果不行的话，换brew install tesseract 安装

安装完成后可以看看语言全部装上没有，如果有很多语言输出就代表安装成功

tesseract --list-langs

测试是否在终端中可以检测图片
图片地址 https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
保存或下载。首先用命令行进行测试，将图片下载下来并保存为image.png，然后用tesseract命令测试：

tesseract image.png(图片存放的地址) result -l eng && cat result.txt

运行结果如下：
Tesseract Open Source OCR Engine v3.05.01 with LeptonicaPython3WebSpider
这里我们调用了tesseract命令，其中第一个参数为图片名称，第二个参数result为结果保存的目标文件名称，-l指定使用的语言包，在此使用英文（eng）。然后，再用cat命令将结果输出。
运行结果便是图片的识别结果：Python3WebSpider。可以看到，这时已经成功将图片文字转为电子文本了。
4. 虽然终端可以识别了，但是在python中调用这个包依然是失败的，所以还需要导入tesseract包

pip install tesserocr pillow

但是这步会出错，譬如gcc找不到这样的，所以需要这样写：

sudo CFLAGS="-mmacosx-version-min=10.14" pip3 install tesserocr
因为是mac电脑，所以要选择适合自己版本下载，版本在左上角的苹果–>关于本机中可以看到

把10.14换成自己电脑的版本就可以了。
安装成功后还需要下载一个Image包对图片进行读取，所以pip install Image
导入过程中可能会出现导入名字错误情况，选择重启或者先不管。输入我们的测试代码
方法一：

import tesserocr
from PIL import Image
image = Image.open('/Users/Desktop/image.png')
print(tesserocr.image_to_text(image))

方法二：

import tesserocr
print(tesserocr.file_to_text(' /Users/Desktop/image.png'))

识别成功，可以使用~

完~~

大笨熊哥哥

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫 tesserocr在Mac下的安装使用

最近要用tesserocr这个库处理在爬虫中遇到的验证码问题，但是捣鼓了半天都失败。特地记录下来，以防下次出错在Pycharm命令台上使用Homebrew安装ImageMagick和tesseract库：brew install imagemagickbrew install tesseract --all-languages如果不行的话，换brew install tesserac...
复制链接

扫一扫