系统:window7
python版本:3.5.0
一、Scrapy简介
Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
Scrap,是碎片的意思,这个Python的爬虫框架叫Scrapy。
Scrapy是一个为遍历爬行网站、分解获取数据而设计的应用程序框架,它可以应用在广泛领域:数据挖掘、信息处理和或者历史片(历史记录)打包等等
尽管Scrapy原本是设计用来屏幕抓取(更精确的说,是网络抓取)的目的,但它也可以用来访问API来提取数据,比如Amazon的AWS或者用来当作通常目的应用的网络蜘蛛
二、Scrapy安装
1.直接使用pip3 install scrapy 安装会报错
2.解决方法
在https://www.lfd.uci.edu/~gohlke/pythonlibs/下载windows编译好的第三方库,下载对应版本的库就行。
(1)查看cmd 命令行输入python,查看python版本
从上图可知当前python版本为:python3.5.0-64bit。
(2)登陆https://www.lfd.uci.edu/~gohlke/pythonlibs/,Ctrl+F搜索Lxml、Twisted、Scrapy,下载对应的版本,例如:lxml-3.7.3-cp35-cp35m-win_adm64.whl,表示lxml的版本为3.7.3,对应的python版本为3.5-64bit。我下载的版本如下图所示:
(3)在cmd中输入DOS指令,进入下载好的whl文件夹下,例如我的三个whl文件放在了Scrapy文件夹下:
(4)依次执行如下命令:
pip3 install wheel
pip3 install lxml-4.2.5-cp35-cp35m-win_amd64.whl
pip3 install Twisted-18.9.0-cp35-cp35m-win_amd64.whl
pip3 install Scrapy-1.5.1-py2.py3-none-any.whl
i.pycharm导包未提示错误,说明安装成功
ii.cmd命令行输入scrapy,出现下图信息,说明安装成功