Python爬虫、数据清洗与可视化-4 - scrapy

新手学习日记1:
简介
Scrapy 是一个基于Twisted (用Python实现的基于事件驱动的网络引擎框架)的异步处理框架,是纯Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求,只需要定制开发几个模块就可以轻松实现一个爬虫。

一、scrapy框架架构图
在这里插入图片描述
二、爬虫执行流程

1.Engine引擎开始
调用了spiders中的spider的启动方法
2. 获取到了spider中start_urls
3. 将urls转换成请求(request)发送出去
4. request通过downloader进行下载,请求
5. 生成response
6. response通过engine返回到spider中的回调函数 parse上
7. parse中做数据提取
下一个请求的地址
数据都需要通过yield进行返回处理
8. yield的地址会提交到Engine,分配到调度器,开始进行上面过程的循环

  1. yield的数据,会交给ItemPipeline
  2. 存储

三、框架使用
1-1创建工程

scrapy startproject projectName

1-2进入工程目录:这里一定要进入到刚才创建好的目录中

cd projectName

1-3创建爬虫文件:创建的爬虫文件会出现在之前创建好的spiders文件夹下

scrapy genspider spiderName www.xxx.com

1-4执行爬虫文件


                
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值