Scrapy源码分析（一）：代码结构初探

最新推荐文章于 2024-05-11 13:08:28 发布

joker1993

最新推荐文章于 2024-05-11 13:08:28 发布

阅读量986

点赞数 2

分类专栏：爬虫文章标签：爬虫 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011423145/article/details/102549491

版权

前言

很多朋友在使用scrapy编写爬虫的时候，都能感受到这个框架的在定制性方面的强大。我们完成一个爬虫只需要定义好Spider抽取规则即可。即使再复杂一点的需求，我们也可以通过pipeline来控制爬虫的输出，middleware来控制下载中的请求定制。可是大家有没有想过scrapy是如何将我们的初始种子url一步步的下载、解析、加入新队列，周而复始的运行呢？

这篇文章我来带着大家通过阅读文档，源码，来一步步的理清我们的思路。

阅读方法

直接阅读源码，往往会给人一头雾水的感觉，如果脑中没有一定架构概念的话，很容易陷入到代码的汪洋中。这里我们通过三个步骤来阅读他的源码：

先看懂scrapy的官方文档，也就是架构页面。
下载scrapy源码，从文件夹根目录开始看，选择重要的部分研究。
使用pycharm执行爬虫，完整观察一个爬虫运行的周期。

下面开始按照步骤一步一步的来。

scrapy的官方文档

scrapy的文档中内容很多，官网左侧的导航栏分为五个主题：

First steps。不用说，这部分大家肯定学写爬虫时候都看过，主要是将安装和编写第一个爬虫
Basic concepts。这一部分主要是scrapy的各个组件，包括命令行（Command line tool）

最低0.47元/天解锁文章

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Scrapy源码分析（一）：代码结构初探

前言很多朋友在使用scrapy编写爬虫的时候，都能感受到这个框架的在定制性方面的强大。我们完成一个爬虫只需要定义好Spider抽取规则即可。即使再复杂一点的需求，我们也可以通过pipeline来控制爬虫的输出，middleware来控制下载中的请求定制。可是大家有没有想过scrapy是如何将我们的初始种子url一步步的下载、解析、加入新队列，周而复始的运行呢？这篇文章我来带着大家通过阅读文...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。