Python3爬虫系列(2)-请求库与解析库的安装

1请求库的安装

爬虫可以简单分为几步:抓取页面、分析页面和存储数据

1.1requests、selenium库的安装

在抓取页面过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些Python库来实现HTTP请求操作。用到的第三方库有requests、Selenium和aiohttp等。建议通过pip这个包管理工具安装第三方库。

在安装requests、selenium之前需要安装msgpack库,命令pip3 install msgpack即可。在命令行界面运行命令pip3 install requests,即可完成requests的安装

同理,在命令行界面运行命令pip3 install selenium即可安装selenium。安装命令如下:

 

验证库是否安装成功,在命名行输入以下命令,没有报错即安装成功。

1.2ChromeDriver的安装

 先要安装好Chrome浏览器,随后再安装ChromeDriver。因为只有安装CHromeDriver,才能驱动Chrome浏览器完成相应的操作。

首先需要查看Chrome版本号: 打开Chrome浏览器->帮助->关于Google Chrome查看Chrome版本号。我用的版本号是71.0。ChromeDriver版本与Chrome对应版本如下,下载ChromeDriver v2.45。下载地址:http://npm.taobao.org/mirrors/chromedriver/

下载完成之后将解压后的exe文件复制到Python3的安装目录D之下的scripts文件夹即可,本人计算机安装D:\Python36\Scripts,复制到此即可。

 验证是否安装成功,在命令行输入chromedriver,出现如下界面,即安装成功。

测试chrome与chromedriver,在命令行输入如下命令,若弹出chrome空白框,则表明之前配置都没有问题。 若存在问题则回头检测之前的步骤是否正确,同时检查Chrome版本与ChromeDriver是否匹配。

1.3aiohttp的安装

 Requests库是一个阻塞式HTTP请求库,当我们发出一个请求后,程序会一直等待服务器响应,服务器响应之后才会进行下一步处理。aiohttp提供异步web服务的库,使用异步请求进行数据抓取时,会大大提高效率。安装命令:pip3 install aiohttp

还应再装两个库:一个是字符编码检测库cchardet, 另一个是加速DNS的解析库aiodns。

安装命令:pip3 install cchardet aiodns

2 解析库的安装

2.1lxml的安装

lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath的解析方式,而且解析效率较高。

安装命令:pip3 install lxml

2.2Beautiful Soup的安装

Beautiful Soup是Python的一个HTML或XML的解析库,可以用它方便地从网页中提取数据。

安装命令:pip3 install beautifulsoup4

2.3pyquery的安装

pyquery是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用方便。

安装命令:pip3 install pyquery

2.4tesserocr的安装

在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时可以用OCR(Optical Character Recognition 光学字符识别,指通过扫描字符,然后通过其形状将其翻译成电子文本的过程)来识别。

tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,需要安装tesseract。安装tesseract需要下载其安装包,下载地址:https://digi.bib.uni-mannheim.de/tesseract/本人下载的是tessert-ocr-setup-3.05.01.exe 

默认安装完之后,若安装在了其他盘,则需要将安装路径(本文D:\Python36\Tesseract-OCR)加到环境变量之中。

安装完tesseract之后即可利用命令:pip3 install tesserocr pillow安装tesserocr库。在安装过程中可能出现提示“ Failed building wheel for tesserocr”的错误,查阅网上资料可能是安装了Anaconda的原因,

这时可以用命令: conda install -c simonflueckiger tesserocr  安装tesserocr。

安装完之后就可以测试tesserocr这个库了,打开Python编辑器(本文用的是pycharm编译器,下载地址:https://pan.baidu.com/s/1nwhmx2D    密码:pc61),安装之后新建工程,新建Python文件。再下载一张图片,下载地址:https://raw.githubusercontent.com/Python3WebSpider/Testtess/master/image.png  将其保存到pycharm的工作目录(pycharm最上方有提示)之下。同时也许将pycharm的编译环境设置为python3, 设置方式:点击文件->设置->项目->Project Interpreter 将项目翻译设置为python3.6.5即可,也可在此查看当前python安装了哪些包。运行以下代码,若成功运行,执行结果为“Python3WebSpider”则表示安装成功。 

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

 当然在执行过程中,可能会遇到“File "tesserocr.pyx", line 2401, in tesserocr._tesserocr.image_to_text”的错误,解决办法:将tesserocr安装目录Tesseract-OCR之下的tessdata文件夹拷到python的根目录之下,问题就可以得以解决。

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值