新手学习日记1:
简介
Scrapy 是一个基于Twisted (用Python实现的基于事件驱动的网络引擎框架)的异步处理框架,是纯Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求,只需要定制开发几个模块就可以轻松实现一个爬虫。
一、scrapy框架架构图
二、爬虫执行流程
1.Engine引擎开始
调用了spiders中的spider的启动方法
2. 获取到了spider中start_urls
3. 将urls转换成请求(request)发送出去
4. request通过downloader进行下载,请求
5. 生成response
6. response通过engine返回到spider中的回调函数 parse上
7. parse中做数据提取
下一个请求的地址
数据都需要通过yield进行返回处理
8. yield的地址会提交到Engine,分配到调度器,开始进行上面过程的循环
- yield的数据,会交给ItemPipeline
- 存储
三、框架使用
1-1创建工程
scrapy startproject projectName
1-2进入工程目录:这里一定要进入到刚才创建好的目录中
cd projectName
1-3创建爬虫文件:创建的爬虫文件会出现在之前创建好的spiders文件夹下
scrapy genspider spiderName www.xxx.com
1-4执行爬虫文件