爬虫进阶：验证码突破--2、tesserocr的安装

最新推荐文章于 2021-08-06 17:41:17 发布

何永生

最新推荐文章于 2021-08-06 17:41:17 发布

阅读量341

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/huoyingchong64/article/details/89711787

版权

爬虫专栏收录该内容

16 篇文章 3 订阅

订阅专栏

1. OCR
OCR，即Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们都是一些不规则的字符，这些字符确实是由字符稍加扭曲变换得到的内容。
例如，对于如图1和图2所示的验证码，我们可以使用OCR技术来将其转化为电子文本，然后爬虫将识别结果提交给服务器，便可以达到自动识别验证码的过程。
在这里插入图片描述
图1 验证码

图2 验证码
tesserocr是Python的一个OCR识别库，但其实是对tesseract做的一层Python API封装，所以它的核心是tesseract。因此，在安装tesserocr之前，我们需要先安装tesseract。
2. 相关链接
tesserocr GitHub：https://github.com/sirfz/tesserocr
tesserocr PyPI：https://pypi.python.org/pypi/tesserocr
tesseract下载地址：http://digi.bib.uni-mannheim.de/tesseract
tesseract GitHub：https://github.com/tesseract-ocr/tesseract
tesseract语言包：https://github.com/tesseract-ocr/tessdata
tesseract文档：https://github.com/tesseract-ocr/tesseract/wiki/Documentation
3. Windows下的安装
在Windows下，首先需要下载tesseract，它为tesserocr提供了支持。
进入下载页面，可以看到有各种.exe文件的下载列表，这里可以选择下载3.0版本。图1-24所示为3.05版本。
在这里插入图片描述
图1-24 下载页面
其中文件名中带有dev的为开发版本，不带dev的为稳定版本，可以选择下载不带dev的版本，例如可以选择下载tesseract-ocr-setup-3.05.01.exe。
下载完成后双击，此时会出现如图1-25所示的页面。

图1-25 安装页面
此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包，这样OCR便可以识别多国语言。然后一路点击Next按钮即可。

接下来，再安装tesserocr即可，此时直接使用pip安装：
可以直接下载已经编译好的包
https://github.com/simonflueckiger/tesserocr-windows_build/releases
由于迅雷下载跟ie下载均十分艰难，这里使用internet download manager工具进行下载
(本人深受其害，甚至中间还想着找CSDN中带积分的资源进行下载，后来才找着这个下载工具，未曾想到的是，还有使用这个tesseract制作的相同类型的Python包)
工具下载地址：http://www.internetdownloadmanager.com/

 pip3 install tesserocr pillow

4. Linux下的安装
对于Linux来说，不同系统已经有了不同的发行包了，它可能叫作tesseract-ocr或者tesseract，直接用对应的命令安装即可。
Ubuntu、Debian和Deepin
在Ubuntu、Debian和Deepin系统下，安装命令如下：

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

CentOS、Red Hat
在CentOS和Red Hat系统下，安装命令如下：

yum install -y tesseract

在不同发行版本运行如上命令，即可完成tesseract的安装。
安装完成后，便可以调用tesseract命令了。
接着，我们查看一下其支持的语言：

tesseract --list-langs

运行结果示例：

 List of available languages:
 eng
 osd
 equ

结果显示它只支持几种语言，如果想要安装多国语言，还需要安装语言包，官方叫作tessdata（其下载链接为：https://github.com/tesseract-ocr/tessdata）。
利用Git命令将其下载下来并迁移到相关目录即可，不同版本的迁移命令如下所示。
在Ubuntu、Debian和Deepin系统下的迁移命令如下：

git clone https://github.com/tesseract-ocr/tessdata.gitsudo 
mv tessdata/* /usr/share/tesseract-ocr/tessdata

在CentOS和Red Hat系统下的迁移命令如下：

git clone https://github.com/tesseract-ocr/tessdata.gitsudo 
mv tessdata/* /usr/share/tesseract/tessdata

这样就可以将下载下来的语言包全部安装了。
这时我们重新运行列出所有语言的命令：

tesseract --list-langs

可以发现，列出的语言就多了很多，比如chi_sim就代表简体中文，这就证明语言包安装成功了。
接下来再安装tesserocr即可，这里直接使用pip安装：

pip3 install tesserocr pillow

5. Mac下的安装
在Mac下，我们首先使用Homebrew安装ImageMagick和tesseract库：

brew install imagemagick
brew install tesseract --all-languages

接下来再安装tesserocr即可：

pip3 install tesserocr pillow

这样我们便完成了tesserocr的安装。
6. 验证安装
接下来，我们可以使用tesseract和tesserocr来分别进行测试。
下面我们以如图1-26所示的图片为样例进行测试。
在这里插入图片描述
图1-26 测试样例
该图片的链接为https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png，可以直接保存或下载。
首先用命令行进行测试，将图片下载下来并保存为image.png，然后用tesseract命令测试：

tesseract image.png result -l eng && cat result.txt

运行结果如下：

Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Python3WebSpider

*–如果这个运行出现问题

Error opening data file \Program Files (x86)\Tesseract-OCR;/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.

那就是环境变量没有设置成功，除了在path需要添加C:\Program Files (x86)\Tesseract-OCR之外，还需要创建TESSDATA_PREFIX 变量，由于我之前添加时变量加了分号，因为win10中不需要这样设置，所以失败了*

这里我们调用了tesseract命令，其中第一个参数为图片名称，第二个参数result为结果保存的目标文件名称，-l指定使用的语言包，在此使用英文（eng）。然后，再用cat命令将结果输出。
运行结果便是图片的识别结果：Python3WebSpider。可以看到，这时已经成功将图片文字转为电子文本了。
然后还可以利用Python代码来测试，这里就需要借助于tesserocr库了，测试代码如下：
1234 import tesserocrfrom PIL import Imageimage = Image.open(‘image.png’)print(tesserocr.image_to_text(image))
这里pycharm再次运行失败了，我重新设置了环境变量TESSDATA_PREFIX 为C:\Program Files (x86)\Tesseract-OCR\tessdata.
这时我再次回到winwods命令窗口执行tesseract image.png result，结果成功了。所以环境变量应该此次才是正确的。
我们首先利用Image读取了图片文件，然后调用了tesserocr的image_to_text()方法，再将其识别结果输出。
运行结果如下：

Python3WebSpider

另外，我们还可以直接调用file_to_text()方法，这可以达到同样的效果：

import tesserocr
print(tesserocr.file_to_text('image.png'))

运行结果：

Python3WebSpider

如果成功输出结果，则证明tesseract和tesserocr都已经安装成功。

还有个相同类型的包pytesseract
这个包安装比较简单，直接
pip3/pip install pytesseract
就可以了，使用方法：（需要配置path跟TESSDATA_PREFIX 这两个环境变量）
如果安装路径不是系统默认的路径，那么需要使tesseract-ocr与python关联，从而使python能够调用Tesseract-OCR程序识别验证码/文字：

C:\python27\Lib\site-packages\pytesseract\pytesseract.py

修改pytesseract.py文件中第24行将tesseract_cmd指向Tesseract-OCR的tesseract.exe

修改后

import pytesseract
from PIL import Image

image = Image.open('D:\Test\image.png')
code = pytesseract.image_to_string(image)
print(code)

pytesser3包是支持python3的pytesser,后者是谷歌OCR开源项目的一个模块,在python中导入这个模块会调用tesseract, 即可将图片中的文字转换成文本。跟pytesseract类似
安装方法：

pip install pytesser3

2.7版本，使用的包名称为pytesser。
pytesser:下载地址：http://code.google.com/p/pytesser/
pytesser 模块的安装：
下载后得到 “pytesser.zip”，是一个压缩文件，使用方法：
1、在 “C:\Python27\Lib\site-packages” 路径下新建一个文件夹，命名 “pytesser” 。把 “pytesser.zip” 里的文件解压到该目录：
2、将 “pytesser.py” 改名为 “init.py”。
3、打开 “init.py” 文件，修改：tesseract_exe_name = ‘C:\Python27\Lib\site-packages\pytesser\tesseract’ # Name of executable to be called at command line
4、pytesser 模块依赖于 PIL 模块，如果是按照上面的方法安装 PIL 的话，需要把 “init.py” 文件里的 “import Image” 改成 “from PIL import Image” 。
下载解压后直接放C:\Python27\Lib\site-packages，同时，新建一个pytesser.pth,内容就写，注意这里的内容一定要和pytesser这个文件夹同名，意思就是pytesser文件夹，pytesser.pth,及内容都要一样！
用法举例

# encoding=utf-8
from PIL import Image
from pytesser3 import *

img = Image.open('验证码.jpg')
img_grey = img.convert('L')

threshold = 140
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
img_out = img_grey.point(table, '1')

text = image_to_string(img_grey)  # 将图片转成字符串
print text

note:文章引用了：[Python3网络爬虫开发实战] 1.3.4-tesserocr的安装。

何永生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫进阶：验证码突破--2、tesserocr的安装

1. OCROCR，即Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们都是一些不规则的字符，这些字符确实是由字符稍加扭曲变换得到的内容。例如，对于如图1和图2所示的验证码，我们可以使用OCR技术来将其转化为电子文本，然后爬虫将识别结果提交给服务器，便可以达到自动识别验证码的过程。图1...
复制链接

扫一扫

专栏目录