爬虫的开发环境配置
1.1装Python3
1.2请求库的安装
1.2.1装requests
pip install requests
它是一个第三方库,需要手动安装。
1.2.2装selenium
pip install selenium
它是自动化测试工具,可以用来驱动浏览器执行特定的动作,抓取JavaScript渲染过的页面非常有效。
1.2.3装ChromeDriver
我的chrome版本号为 68.0.3440.75 ,下载的ChromeDriver为2.4.1
检验安装:
在cmd中输入Python代码:
from selenium import webdriver
browser = webdriver.Chrome()
查看结果是否弹出空白chrome浏览器,并且不闪退。
1.2.4装GeckoDriver
这个是firefox(火狐)浏览器需要安装的浏览器驱动
1.2.5装PhantomJS
这个是WebKit浏览器需要安装的、
1.2.6装aiohttp
aiohttp是用来提供异步web服务的库,可以在维护一个代理池的时候,利用异步方式检测大量代理的运行状况,提高效率。
pip install aiohttp
官方推荐安装另外两个库:
pip install aiodns
pip install cchardet aiodns
1.3 解析库安装
1.3.1装lxml
lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,解析效率高。
pip install lxml
验证:
在cmd中输入Python代码:
import lxml
如果没有报错,则安装好了。
1.3.2装Beautiful Soup
它是Python的一个HTML和XML的解析库,可以方便地从网页提取数据,拥有强大的API和多样解析方式。
pip install beautifulsoup4
验证:
在cmd中输入Python代码:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p.string)
如果运行结果为 Hello ,则安装成功。
1.3.3装pyquery
它是网页解析工具,提供了和jQuery类似的语法解析HTML,支持CSS选择器。
pip install pyquery
验证:
在cmd中输入Python代码:
import pyquery
没有报错就是安装成功了。
1.3.4装tesserocr(下载不了,网页打不开)
它是Python的一个OCR识别库,核心是tessract。用tesserocer来识别验证码。
1.4.2装MongoDB
它是由C++语言编写的非关系型数据库,是基于分布式文件存储的开源数据库系统,内容存储形式类似JSON对象。
www.mongodb.com
下载msi文件,安装。
在data文件夹 中建一个文件夹db来存储数据。
在cmd中,在MongoDB的安装目录的bin目录(E:/MongoDB/bin)下,输入指令:
mongod --dbpath "e:\MongoDB\data\db"
这样就启动了MongoDB的服务了。
1.6.1装Flask
它是一个轻量级WEB服务程序,用来做API服务。
pip install flask
1.6.2装Tornado
它是支持异步的WEB框架,通过使用非阻塞I/O流,可以支撑成千上万的开放连接。
pip install tornado
安装的是tornado-5.1
以上内容为WEB网页爬取需要安装的工具和软件
1.8 爬虫框架的安装
1.8.1安装pyspider
它是网络爬虫框架,带有强大的WebUI、脚本编辑器、任务监控器、项目管理器、结果处理器,同时支持多种数据库后端、多种消息队列,还支持JavaScript渲染页面的爬取。
pip install pyspider
安装的pyspider-0.3.10
安装结束后再cmd中输入 pyspider all 可以看到web服务会在5000端口运行,在网页打开http://localhost:5000/,可以进入pyspider的WebUI管理页面。
1.8.2安装Scrapy
它是强大的爬虫框架,依赖库多,在不同环境,依赖库不同,至少需要:
Twisted 14.0、lxml 3.4、pyOpenSSL 0.14
安装pyOpenSSL:
pip install pyOpenSSL
安装的是pyOpenSSL18.0.0版本
安装Twisted:
在网站下载Twisted的whl文件,然后在文件路径下pip安装:
https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
pip install Twisted-18.7.0-cp36-cp36m-win_amd64.whl
安装pywin32:
在网站下载pywin32:
https://sourceforge.net/projects/pywin32/files/pywin32/
下载完成是一个.exe文件,可直接安装。
pip install pywin32
安装Scrapy:
pip install Scrapy
安装的是Scrapy-1.5.1