scrapy框架
- 框架:就是一个集成了很多功能,并且具有很强通用性的一个项目模板。
- 学习框架:学习框架封装的详细用法
- scrapy:基于爬虫中封装好的明星框架
- 功能:高性能的持久化存储、异步数据下载、高性能的数据解析、分布式
- scrapy框架的基本使用:
框架环境安装:
pip install wheel
下载twisted,下载地址为 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
安装twisted:安装的twist必须根据python对应的版本号,
比如说3.6版本的python.就对应cp36-cp36m类型的
pip install Twisted-17.1.0-cp36-cp36m-win_amd64.whl
pip install pywin32
pip install scrapy
测试:在终端里录入scrapy指令
创建一个工程:scrapy startproject xxxPro
在pycharm的终端创建一个scrapy 的文件
>scrapy startproject firstBlood(firstBlood只是一个名字,可以更改)
文件中包含spiders文件,其存放爬取的代码以及运行爬取的结果
所以需要在其子目录下创建一个爬虫文件:
scrapy genspider spiderName www.xxx.com
#spiderName可为任意名字
执行工程代码时:
scrapy crawl spriderName
工作流程: