Scrapy框架 - 学习日记1

最新推荐文章于 2024-06-21 20:40:11 发布

livein80

最新推荐文章于 2024-06-21 20:40:11 发布

阅读量133

点赞数

分类专栏：学习日记 python

本文链接：https://blog.csdn.net/livein80/article/details/109007585

版权

6 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

Scrapy是⼀个为了爬取⽹站数据，提取结构性数据⽽编写的应⽤框架，我们只需要实现少量的代码，就能够快速的抓取。
Scrapy使⽤了Twisted异步⽹络框架，可以加快我们的下载速度

http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html

在这里插入图片描述
异步：调⽤在发出之后，这个调⽤就直接返回，不管有⽆结果。

⾮阻塞：关注的是程序在等待调⽤结果时的状态，指在不能⽴刻得到结果之前，该调⽤不会阻塞当前线程

在这里插入图片描述
Scrapy⼯作流程

Scrapy engine(引擎)	总指挥:负责数据和信号的在不同模块间的传递	scrapy已经实现
Scheduler(调度器)	⼀个队列,存放引擎发过来的request请求	scrapy已经实现
Downloader(下载器)	下载把引擎发过来的requests请求,并返回给引擎	scrapy已经实现
Spider(爬⾍)	处理引擎发来的response,提取数据,提取url,并交给引擎	需要⼿写
Item Pipline(管道)	处理引擎传过来的数据,⽐如存储	需要⼿写
Downloader Middlewares(下载中间件)	可以⾃定义的下载扩展，⽐如设置代理	⼀般不⽤⼿写
Spider Middlewares(中间件)	可以⾃定义requests请求和进⾏response过滤	⼀般不⽤⼿写

1 创建⼀个scrapy项⽬
scrapy startproject mySpider
2 ⽣成⼀个爬⾍
scrapy genspider demo “demo.cn”
3 提取数据
完善spider 使⽤xpath等
4 保存数据
pipeline中保存数据

scrapy crawl qb # qb爬⾍的名字

 from scrapy import cmdline
 cmdline.execute("scrapy crawl qb".split())

从pipeline的字典形可以看出来，pipeline可以有多个，⽽且确实pipeline能够定义多个。

为什么需要多个pipeline：

注意：

总结：
1.scrap有的介绍：

2.scrapy的工作流程
- 引擎
- 调度器
- 中间件
- item pipline
- spider

3.scrapy 入门

关注