python scrapy入门1

友情链接:
(1)Scrapy爬虫入门教程十三 Settings(设置)
https://www.jianshu.com/p/df9c0d1e9087

(2)python3_scrapy包Field类方法及属性剖析、字典(dict)类方法及属性剖析
https://blog.csdn.net/admin_maxin/article/details/80015682

(3)Scrapy抓取Ajax动态页面
https://www.jianshu.com/p/1e35bcb1cf21

(4)Python之Scrapy爬虫框架 入门实例(一)
https://www.cnblogs.com/zhuxr/p/8729320.html

(5)独家 | 手把手教你用scrapy制作一个小程序 !(附代码)
https://cloud.tencent.com/developer/article/1032153

一. 前言

Scrapy是用于Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

有爬虫爱好者认为scrapy的优点是自定义程度高,适合学习研究爬虫技术,要学习的相关知识也较多,故而完成一个爬虫的时间较长。也有人表示,scrapy在python3上面无法运行,适用度没有想象的那么广阔。

网络爬虫通俗来说,就是一个在网上到处或定向抓取数据的程序,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作。

二. 原理

Scrapy 使用 Twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。

在我们初次尝试去理解scrapy的结果和运行原理的时候,会用这样图表的介绍:
在这里插入图片描述
2.1 爬取流程

上图绿线是数据流向,首先从初始URL开始,Scheduler会将其交给Downloader进行下载,下载之后会交给Spider进行分析,Spider分析出来的结果有两种:一种是需要进一步抓取的链接,例如之前分析的“下一页”的链接,这些东西会被传回Scheduler;另一种是需要保存的数据,它们则被送到Item Pipeline那里,那是对数据进行后期处理(详细分析、过滤、存储等)的地方。另外,在数据流动的通道里还可以安装各种中间件,进行必要的处理。

2.2 各部块的解释

引擎(Scrapy Engine):用来处理整个系统的数据流处理,触发事务。
调度器(Scheduler):用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。

下载器(Downloader):用于下载网页内容,并将网页内容返回给蜘蛛。
蜘蛛(Spiders):蜘蛛是主要干活的,用它来制订特定域名或网页的解析规则。编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。

项目管道(Item Pipeline):负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares):位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
蜘蛛中间件(Spider Middlewares):介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middlewares):介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。

2.3 scrapy数据流的分析

步骤如下:

STEP 1: 引擎打开一个网站(open a domain),找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。

STEP 2: 引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。

STEP 3: 引擎向调度器请求下一个要爬取的URL。

STEP 4: 调度器返回下一个要爬取的URL给引擎,引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。

STEP 5: 一旦页面下载完毕,下载器生成一个该页面的Response,并将其通过下载中间件(返回(response)方向)发送给引擎。

STEP 6: 引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。

STEP 7: Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。

STEP 8: 引擎将(Spider返回的)爬取到的Item给Item Pipeline,将(Spider返回的)Request给调度器。

STEP 9: (从第二步)重复直到调度器中没有更多地request,引擎关闭该网站。


在这里插入图片描述
(5)Scrapy入门实例2:爬取简书网热门专题信息(动态网页,双重Ajax接口)
https://blog.csdn.net/qq_43391383/article/details/86910782

(6)scrapy实战2,使用内置的xpath,re和css提取值
https://www.cnblogs.com/regit/p/9629263.html

xpath常用规则如下:
// 从当前节点选取子孙节点,如果符号前面没路径,表示整个文档
/ 从当前节点选取直接子节点
. 选取当前节点
… 选取当前节点父节点
@ 选取属性
//* 整个HTML文本中的所有节点

(7)如何写第一个scrapy
https://blog.csdn.net/f156207495/article/details/81298213

(8)Scrapy:运行爬虫程序的方式
https://www.cnblogs.com/luo630/p/9262486.html

(9)Python爬虫(13):Scrapy实战抓取网易云音乐(精品!!!)
https://www.jqhtml.com/13432.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值