Python网络爬虫——scrapy的爬虫框架安装

scrapy是一个功能强大并且非常快速的网络爬虫框架;它是python的第三方在这里插入图片描述库,也是基于Python实现网络爬虫的重要的技术路线;
第一条数据路径:从SPIDERS模块通过ENGINE模块到达SCHEDULER模块;其中,ENGINE模块从SPIDERS模块获得了爬去用户的请求,我们对这种请求叫做REQUESTS(我们可以简单的将这种请求理解为一个url),爬去请求到达从SPIDERS到达ENGINE模块之后,ENGINE将这个爬去请求发送给了SCHEDULER模块。SCHEDULER模块负责对爬去请求进行调度;
第二条数据路径:是从SCHEDULER模块通过ENGINE模块到达DOWNLOAND模块,并且数据最终返回到SPIDERS模块;首先,ENGINE模块从SCHEDULER模块获得下一个要爬取的请求,这个网络请求是真实的,要去网络上爬去的请求;ENGINE获得这个请求之后,通过中间介发送给DOWNLOADER模块,DOWNLOADER模块获得这个请求之后,拿着这个模块链接到互联网,并且爬去相关的网页;爬去到网页之后,DOWNLIADER模块将爬去的内容形成一个对象;这个对象叫响应RESPONS。将所有的内容分装成RESPONS之后,将这个响应通过ENGINE最终发送给SPIDERS。
第三条数据路径:从SPIDERS模块经过ENGINE模块到达ITEM PIPELINES模块以及SCHEDULER模块;首先,SPIDERS处理从DOWNLOADER获得的响应(也就是从网络中爬去的相关内容),处理之后产生了两个数据类型,一个类型叫爬去项(ITEM),另一个叫爬取请求(REQUESTS)。
scrapy爬虫的框架中包含“5+2”结构,也就是说它有五个模块和两个中间介。
Engine:在整个框架的最中心位置是Engine模块,他控制所有模块之间的数据流,任何模块和模块之间的流动都要经过Engine之间的调动,同时,它根据各个模块提供的事件进行触发。(不需要进行修改,是固定的了)
Dowloader:它是根据用户提供的请求来进行下载网页的,它的功能比较单一,只是获得一个请求,并且向网络中提交这个请求,最终获得返回的相关内容;(不需要进行修改,是固定的了)
Scheduler:它是对所有的爬去请求进行调度管理的一个模块;对于一个中规模的爬虫,可能有很多的对网络的请求,那么这些请求中哪个先访问,哪个后访问,都是有Scheduler模块来进行调度的,调度的方法和调度的功能也相对的固定,因此用户也不用对他的代码进行修改的。(不需要进行修改,是固定的了)
从这三个模块来看,都是不用在进行修改的了,将这三个模块放一块形成的一个功能就是,由Scheduler发送请求经过Engine到达Dowloader。如果用户希望对这个请求做一定的配置,因此,在Engine模块和Dowloader模块之间增加了中间介;这个中间介就叫做Downlosder Middleware 这个中间介就是对Engine、Dowloader、Scheduler三者之间的数据流进行用户可配置的操作。在这部分用户可以编写配置代码的。
Spider:它能够解析Dowloader模块返回的用户响应(Response);能够产生爬取项(scraped item);并且可以产生额外的爬取请求(request);(它是用户主要进行编写代码的配置代码)
Item Pipelines:它主要以流水线的方式进行处理Spider产生的爬取项。由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型。它可能的操作包括了:清理、检验和查看爬去项中的一个HTML数据、将数据存储到数据库中。需要用户进行编写代码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小记专家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值