1.开发环境配置
1.1Python3的安装
在写博客之前,楼主使用的是目前为止最新版本的Python 3.9.1。但由于在安装tesserocr时,没有对应版本的wheel文件。因此,将Python的版本降到了3.7.9。具体的影响因为刚开始学习暂时未知,先用3.7.9的版本。
1.2请求库的安装
爬虫可以简单的分为几步:抓取页面、分析页面、存储数据。
-
在抓取页面的过程中,需要模拟浏览器向服务器发出请求,需要用到一些Python库来实现HTTP请求操作。
-
用到的第三方库有
requests
、Selenium
、aiohttp
-
requests:
中文文档:http://docs.python-requests.org/zh_CN/latest
pip安装:
pip install requests
验证安装:
import requests
,如没有错误提示,则安装成功。 -
Selenium:
Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。
中文文档:http://selenium-python-zh.readthedocs.io
pip安装:
pip install selenium
验证安装:
import selenium
,如没有错误提示,则安装成功 -
ChromeDriver:
配合
Selenium
进行使用。安装前确保正确安装Chrome浏览器并正常运行。下载地址:https://chromedriver.storage.googleapis.com/index.html
环境变量配置:Windows下,建议直接将chromedriver.exe文件拖到Python的Scripts目录下。
验证安装:配置完成后,可以直接在命令行下执行chromedriver命令
chromedriver
类似输出为:
Starting ChromeDriver 88.0.4324.96 (68dba2d8a0b149a1d3afac56fa74648032bcf46b-refs/branch-heads/4324@{#1784}) on port 9515
Only local connections are allowed.
Please see https://chromedriver.chromium.org/security-considerations for suggestions on keeping ChromeDriver safe.
ChromeDriver was started successfully. (Note:保持ChromeDriver运行)随后在程序中测试。执行如下Python代码:
-
-