scrapy学习系列0——scrapy概述

网络爬虫(web crawler, spider)就是一个按照一定的规则在网络上爬行的机器人,在爬行的时候搜集一些信息。

爬虫由两部分构成,一是下载web页面,有很多问题需要解决,比如如何最大限度地利用本地带宽,如何针对不同的web站点进行调试以减轻对方服务器的负载,二是对获取的页面的分析,这也是一个复杂的过程。

scrapy是用python写的一个web crawler框架,简单轻巧,并且非常方便,整体架构图如下:

scrapy_architecture

绿线是数据流向,首先从URL开始,Scheduler会将其交给Downloader进行下载,下载之后会交给Spiders进行分析,分析的结果有两类,一类是要继续抓取的链接,会交给Scheduler,另一种是需要保存的数据,它们则被送到 Item Pipeline ,那是对数据进行后期处理(详细分析、过滤、存储等)的地方。另外,在数据流动的通道里还可以安装各种中间件,进行必要的处理。

scrapy使用了Twisted这个异步网络库来处理网络通信。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值