爬虫开发环境配置.md

最新推荐文章于 2024-02-26 01:15:37 发布

玩蛇青年

最新推荐文章于 2024-02-26 01:15:37 发布

阅读量253

点赞数

分类专栏： Python爬虫文章标签：爬虫开发环境配置环境环境

本文链接：https://blog.csdn.net/weixin_43249809/article/details/82792065

版权

Python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细介绍了Python爬虫的开发环境配置，包括安装Python3、请求库（如requests、selenium及其对应驱动）、解析库（lxml、BeautifulSoup、pyquery）、MongoDB、Flask、Tornado以及爬虫框架pyspider和Scrapy的安装步骤。确保成功安装后，可以进行高效的网页数据抓取和处理。

摘要由CSDN通过智能技术生成

爬虫的开发环境配置

1.1装Python3

1.2请求库的安装

1.2.1装requests

pip install requests

它是一个第三方库，需要手动安装。

1.2.2装selenium

pip install selenium

它是自动化测试工具，可以用来驱动浏览器执行特定的动作，抓取JavaScript渲染过的页面非常有效。

1.2.3装ChromeDriver

我的chrome版本号为 68.0.3440.75 ，下载的ChromeDriver为2.4.1

检验安装：

在cmd中输入Python代码：
from selenium import webdriver
browser = webdriver.Chrome()

查看结果是否弹出空白chrome浏览器，并且不闪退。

1.2.4装GeckoDriver

这个是firefox（火狐）浏览器需要安装的浏览器驱动

1.2.5装PhantomJS

这个是WebKit浏览器需要安装的、

1.2.6装aiohttp

aiohttp是用来提供异步web服务的库，可以在维护一个代理池的时候，利用异步方式检测大量代理的运行状况，提高效率。

pip install aiohttp

官方推荐安装另外两个库：

pip install aiodns

pip install cchardet aiodns

1.3 解析库安装

1.3.1装lxml

lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，解析效率高。

pip install lxml

验证：

在cmd中输入Python代码：
import lxml

如果没有报错，则安装好了。

1.3.2装Beautiful Soup

它是Python的一个HTML和XML的解析库，可以方便地从网页提取数据，拥有强大的API和多样解析方式。

pip install beautifulsoup4

验证：

在cmd中输入Python代码：
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello</p>','lxml')
print(soup.p.string)

如果运行结果为 Hello ，则安装成功。

1.3.3装pyquery

它是网页解析工具，提供了和jQuery类似的语法解析HTML，支持CSS选择器。

pip install pyquery

验证：

在cmd中输入Python代码：
import pyquery

没有报错就是安装成功了。

1.3.4装tesserocr（下载不了，网页打不开）

它是Python的一个OCR识别库，核心是tessract。用tesserocer来识别验证码。

1.4.2装MongoDB

它是由C++语言编写的非关系型数据库，是基于分布式文件存储的开源数据库系统，内容存储形式类似JSON对象。

www.mongodb.com

下载msi文件，安装。

在data文件夹中建一个文件夹db来存储数据。

在cmd中，在MongoDB的安装目录的bin目录（E:/MongoDB/bin）下，输入指令：

mongod --dbpath "e:\MongoDB\data\db"

这样就启动了MongoDB的服务了。

1.6.1装Flask

它是一个轻量级WEB服务程序，用来做API服务。

pip install flask

1.6.2装Tornado

它是支持异步的WEB框架，通过使用非阻塞I/O流，可以支撑成千上万的开放连接。

pip install tornado

安装的是tornado-5.1

以上内容为WEB网页爬取需要安装的工具和软件

1.8 爬虫框架的安装

1.8.1安装pyspider

它是网络爬虫框架，带有强大的WebUI、脚本编辑器、任务监控器、项目管理器、结果处理器，同时支持多种数据库后端、多种消息队列，还支持JavaScript渲染页面的爬取。

pip install pyspider

安装的pyspider-0.3.10

安装结束后再cmd中输入 pyspider all 可以看到web服务会在5000端口运行，在网页打开http://localhost:5000/，可以进入pyspider的WebUI管理页面。

1.8.2安装Scrapy

它是强大的爬虫框架，依赖库多，在不同环境，依赖库不同，至少需要：

Twisted 14.0、lxml 3.4、pyOpenSSL 0.14

安装pyOpenSSL：

pip install pyOpenSSL

安装的是pyOpenSSL18.0.0版本

安装Twisted：

在网站下载Twisted的whl文件，然后在文件路径下pip安装:

https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

pip install Twisted-18.7.0-cp36-cp36m-win_amd64.whl

安装pywin32：

在网站下载pywin32：

https://sourceforge.net/projects/pywin32/files/pywin32/

下载完成是一个.exe文件，可直接安装。

pip install pywin32

安装Scrapy：

pip install Scrapy

安装的是Scrapy-1.5.1