Python3爬虫系列（2）-请求库与解析库的安装

最新推荐文章于 2021-02-21 00:06:04 发布

小何才露尖尖角

最新推荐文章于 2021-02-21 00:06:04 发布

阅读量397

点赞数

分类专栏： Python爬虫文章标签：爬虫请求库爬虫解析库 tesserocr安装 tesseract

本文链接：https://blog.csdn.net/weixin_40994552/article/details/86531397

版权

Python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1请求库的安装

爬虫可以简单分为几步：抓取页面、分析页面和存储数据

1.1requests、selenium库的安装

在抓取页面过程中，我们需要模拟浏览器向服务器发出请求，所以需要用到一些Python库来实现HTTP请求操作。用到的第三方库有requests、Selenium和aiohttp等。建议通过pip这个包管理工具安装第三方库。

在安装requests、selenium之前需要安装msgpack库，命令pip3 install msgpack即可。在命令行界面运行命令pip3 install requests，即可完成requests的安装

同理，在命令行界面运行命令pip3 install selenium即可安装selenium。安装命令如下：

验证库是否安装成功，在命名行输入以下命令，没有报错即安装成功。

1.2ChromeDriver的安装

先要安装好Chrome浏览器，随后再安装ChromeDriver。因为只有安装CHromeDriver，才能驱动Chrome浏览器完成相应的操作。

首先需要查看Chrome版本号: 打开Chrome浏览器->帮助->关于Google Chrome查看Chrome版本号。我用的版本号是71.0。ChromeDriver版本与Chrome对应版本如下，下载ChromeDriver v2.45。下载地址：http://npm.taobao.org/mirrors/chromedriver/。

下载完成之后将解压后的exe文件复制到Python3的安装目录D之下的scripts文件夹即可，本人计算机安装D:\Python36\Scripts，复制到此即可。

验证是否安装成功，在命令行输入chromedriver，出现如下界面，即安装成功。

测试chrome与chromedriver，在命令行输入如下命令，若弹出chrome空白框，则表明之前配置都没有问题。若存在问题则回头检测之前的步骤是否正确，同时检查Chrome版本与ChromeDriver是否匹配。

1.3aiohttp的安装

Requests库是一个阻塞式HTTP请求库，当我们发出一个请求后，程序会一直等待服务器响应，服务器响应之后才会进行下一步处理。aiohttp提供异步web服务的库，使用异步请求进行数据抓取时，会大大提高效率。安装命令:pip3 install aiohttp

还应再装两个库：一个是字符编码检测库cchardet, 另一个是加速DNS的解析库aiodns。

安装命令：pip3 install cchardet aiodns

2 解析库的安装

2.1lxml的安装

lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath的解析方式，而且解析效率较高。

安装命令：pip3 install lxml

2.2Beautiful Soup的安装

Beautiful Soup是Python的一个HTML或XML的解析库，可以用它方便地从网页中提取数据。

安装命令：pip3 install beautifulsoup4

2.3pyquery的安装

pyquery是一个强大的网页解析工具，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用方便。

安装命令：pip3 install pyquery

2.4tesserocr的安装

在爬虫过程中，难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时可以用OCR（Optical Character Recognition 光学字符识别，指通过扫描字符，然后通过其形状将其翻译成电子文本的过程）来识别。

tesserocr是Python的一个OCR识别库，但其实是对tesseract做的一层Python API封装，所以它的核心是tesseract。因此，在安装tesserocr之前，需要安装tesseract。安装tesseract需要下载其安装包，下载地址：https://digi.bib.uni-mannheim.de/tesseract/本人下载的是tessert-ocr-setup-3.05.01.exe

默认安装完之后，若安装在了其他盘，则需要将安装路径(本文D:\Python36\Tesseract-OCR)加到环境变量之中。

安装完tesseract之后即可利用命令：pip3 install tesserocr pillow安装tesserocr库。在安装过程中可能出现提示“ Failed building wheel for tesserocr”的错误，查阅网上资料可能是安装了Anaconda的原因，

这时可以用命令： conda install -c simonflueckiger tesserocr 安装tesserocr。

安装完之后就可以测试tesserocr这个库了，打开Python编辑器（本文用的是pycharm编译器,下载地址：https://pan.baidu.com/s/1nwhmx2D 密码：pc61），安装之后新建工程，新建Python文件。再下载一张图片，下载地址：https://raw.githubusercontent.com/Python3WebSpider/Testtess/master/image.png 将其保存到pycharm的工作目录（pycharm最上方有提示）之下。同时也许将pycharm的编译环境设置为python3, 设置方式：点击文件->设置->项目->Project Interpreter 将项目翻译设置为python3.6.5即可，也可在此查看当前python安装了哪些包。运行以下代码，若成功运行，执行结果为“Python3WebSpider”则表示安装成功。

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

当然在执行过程中，可能会遇到“File "tesserocr.pyx", line 2401, in tesserocr._tesserocr.image_to_text”的错误，解决办法：将tesserocr安装目录Tesseract-OCR之下的tessdata文件夹拷到python的根目录之下，问题就可以得以解决。

小何才露尖尖角

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
Python3爬虫系列（2）-请求库与解析库的安装

1请求库的安装爬虫可以简单分为几步：抓取页面、分析页面和存储数据1.1requests、selenium库的安装在抓取页面过程中，我们需要模拟浏览器向服务器发出请求，所以需要用到一些Python库来实现HTTP请求操作。用到的第三方库有requests、Selenium和aiohttp等。建议通过pip这个包管理工具安装第三方库。在安装requests、selenium之前需要安装...
复制链接

扫一扫