爬虫开发环境配置.md

本文详细介绍了Python爬虫的开发环境配置,包括安装Python3、请求库(如requests、selenium及其对应驱动)、解析库(lxml、BeautifulSoup、pyquery)、MongoDB、Flask、Tornado以及爬虫框架pyspider和Scrapy的安装步骤。确保成功安装后,可以进行高效的网页数据抓取和处理。
摘要由CSDN通过智能技术生成

爬虫的开发环境配置

1.1装Python3

1.2请求库的安装

1.2.1装requests

pip install requests

它是一个第三方库,需要手动安装。

1.2.2装selenium

pip install selenium

它是自动化测试工具,可以用来驱动浏览器执行特定的动作,抓取JavaScript渲染过的页面非常有效。

1.2.3装ChromeDriver

我的chrome版本号为 68.0.3440.75 ,下载的ChromeDriver为2.4.1

检验安装:

在cmd中输入Python代码:
from selenium import webdriver
browser = webdriver.Chrome()
查看结果是否弹出空白chrome浏览器,并且不闪退。
1.2.4装GeckoDriver

这个是firefox(火狐)浏览器需要安装的浏览器驱动

1.2.5装PhantomJS

这个是WebKit浏览器需要安装的、

1.2.6装aiohttp

aiohttp是用来提供异步web服务的库,可以在维护一个代理池的时候,利用异步方式检测大量代理的运行状况,提高效率。

pip install aiohttp

官方推荐安装另外两个库:

pip install aiodns
pip install cchardet aiodns

1.3 解析库安装

1.3.1装lxml

lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,解析效率高。

pip install lxml

验证:

在cmd中输入Python代码:
import lxml
如果没有报错,则安装好了。
1.3.2装Beautiful Soup

它是Python的一个HTML和XML的解析库,可以方便地从网页提取数据,拥有强大的API和多样解析方式。

pip install beautifulsoup4

验证:

在cmd中输入Python代码:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p.string)

如果运行结果为 Hello ,则安装成功。

1.3.3装pyquery

它是网页解析工具,提供了和jQuery类似的语法解析HTML,支持CSS选择器。

pip install pyquery

验证:

在cmd中输入Python代码:
import pyquery
没有报错就是安装成功了。
1.3.4装tesserocr(下载不了,网页打不开)

它是Python的一个OCR识别库,核心是tessract。用tesserocer来识别验证码。

1.4.2装MongoDB

它是由C++语言编写的非关系型数据库,是基于分布式文件存储的开源数据库系统,内容存储形式类似JSON对象。

www.mongodb.com

下载msi文件,安装。

在data文件夹 中建一个文件夹db来存储数据。

在cmd中,在MongoDB的安装目录的bin目录(E:/MongoDB/bin)下,输入指令:

mongod --dbpath "e:\MongoDB\data\db"

这样就启动了MongoDB的服务了。

1.6.1装Flask

它是一个轻量级WEB服务程序,用来做API服务。

pip install flask
1.6.2装Tornado

它是支持异步的WEB框架,通过使用非阻塞I/O流,可以支撑成千上万的开放连接。

pip install tornado

安装的是tornado-5.1


以上内容为WEB网页爬取需要安装的工具和软件


1.8 爬虫框架的安装

1.8.1安装pyspider

它是网络爬虫框架,带有强大的WebUI、脚本编辑器、任务监控器、项目管理器、结果处理器,同时支持多种数据库后端、多种消息队列,还支持JavaScript渲染页面的爬取。

pip install pyspider

安装的pyspider-0.3.10

安装结束后再cmd中输入 pyspider all 可以看到web服务会在5000端口运行,在网页打开http://localhost:5000/,可以进入pyspider的WebUI管理页面。

1.8.2安装Scrapy

它是强大的爬虫框架,依赖库多,在不同环境,依赖库不同,至少需要:

Twisted 14.0、lxml 3.4、pyOpenSSL 0.14

安装pyOpenSSL

pip install pyOpenSSL

安装的是pyOpenSSL18.0.0版本

安装Twisted

在网站下载Twisted的whl文件,然后在文件路径下pip安装:

https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

pip install Twisted-18.7.0-cp36-cp36m-win_amd64.whl

安装pywin32

在网站下载pywin32:

https://sourceforge.net/projects/pywin32/files/pywin32/

下载完成是一个.exe文件,可直接安装。

pip install pywin32

安装Scrapy

pip install Scrapy

安装的是Scrapy-1.5.1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值