Scrapy爬虫框架搭建
Scrapy爬虫框架简介
Scrapy 是python实现爬取网站数据,提取结构性数据而编写的应用框架,可用于广泛的应用程序,如数据挖掘、信息处理或历史存档。 它使用 Twisted 包(基于事件驱动的网络引擎包)高效地处理网络通信,使用 lxml 、 cssselect 高效提取 HTML 页面, 同时也提供了有效的线程管理。
Scrapy安装
可以在命令行使用pip进行安装:
pip3 install scrapy
直接使用pip安装时,可能会安装失败,因为Scrapy需要大量的第三方依赖包。比如:Twisted, lxml, pyOpenSSL, pywin32等。
首先,我们安装wheel,因为后续安装文件都是whl。
pip3 install wheel
接下来,下载依赖包。去依赖库 下载。
- Twisted 依赖包: (cp37 表示 python 版本 3.7 版本, win32/64 根据自己 windows 系统选择)
Twisted‑19.2.1‑cp37‑cp37m‑win_amd64.whl
下载完成后,在命令行进入下载路径,再使用pip进行安装:
pip3 install Twisted‑