python爬虫之scrapy框架（对比之下，一切通俗易懂）

最新推荐文章于 2024-06-28 16:16:19 发布

客院载论

最新推荐文章于 2024-06-28 16:16:19 发布

阅读量563

点赞数

分类专栏： python 爬虫文章标签： python scrapy 爬虫

本文链接：https://blog.csdn.net/Blackoutdragon/article/details/106336470

版权

python 同时被 2 个专栏收录

68 篇文章 8 订阅

订阅专栏

爬虫

10 篇文章 0 订阅

订阅专栏

python爬虫之scrapy框架（对比之下，一切通俗易懂）

首先回顾一下常见的爬虫的路线方法

首先，调用requests库，根据url网址，获取对应的网页的html信息
然后，对爬取回来的html信息进行信息的搜索和采集
最后，将获取的信息进行相关的操作，输出或者保存

如下图

# 获取html的方法
def getHTMLtext(url):
    return ""

# 将获取的html信息提取，并将之填写到对应的表格中
def fillUnivList(text):
    univList = list()
    return univList


# 将已经填写好的数据进行输出，num确定你要输出的列表的项数
def printUnivList(alist，num):
    print(alist)

# main方法，将所有方法进行统揽，进而形成一个完整的程序
def main():
    url = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2020.html"
    text = getHTMLtext(url)
    uniList = fillUnivList(text)
    printUnivList(uniList,40)

# 总的调用
main()

概括一下，无非就散步
- 从url中下载html页面
- 对html页面进行分析和爬取
- 将爬取的结果进行相关操作

对应的scrapy框架

基本结构:5+2框架，5个模块，2个中间件

在这里插入图片描述

Downloader：根据请求的url，下载对应的html网页，相应的输出的是response对象
Spider：爬取获得到html页面，进行信息筛选，将输入到的信息以item的形式输出。但是，一个scrapy是网站级的爬取软件，很多的网址都在对应的html页面中，所以还有可能返回对应的url爬取请求requests
Item pipelines：对爬取的信息进行相关的操作，保存还是输出。获取Sipder的item对象，并对其进行相关的操作
Engine：相当于一个中转站，用于协调各个部件发送信息的中专。把requests请求，发送给Spiders，让其爬取。将response对象，发送给item pipeline进行加工。等等
Scheduler：主要负责对所有的爬取请求进行调度管理，不要要用户进行修改

数据流的三个路径

路径一：
- Engine从Spider出获得爬取请求Requests
- Engine将爬取请求转发给Scheduler，用于调度

在这里插入图片描述

路径二：
- Engine从Scheduler处获得下一个要爬取的请求
- Engine将爬取请求Requests发送给Downloader
- 爬取网页之后，Downloader进行下载，形成相应的Response对象，通过中间件发给Engine
- Engine将收到的响应通过中间件发送给Spider处理

在这里插入图片描述