scrapy-redis实现scrapy分布式爬取分析

最新推荐文章于 2022-05-10 22:08:53 发布

young-hz

最新推荐文章于 2022-05-10 22:08:53 发布

阅读量8.2k

点赞数 1

分类专栏： Scrapy 文章标签： redis scrapy-redis scrapy 分布式爬取

本文链接：https://blog.csdn.net/u012150179/article/details/38048621

版权

Scrapy 专栏收录该内容

14 篇文章 2 订阅

订阅专栏

（1）在“http://www.zhihu.com/question/20899988”中，提到的：

“那么，假设你现在有100台机器可以用，怎么用python实现一个分布式的爬取算法呢？

我们把这100台中的99台运算能力较小的机器叫作slave，另外一台较大的机器叫作master，那么回顾上面代码中的url_queue，如果我们能把这个queue放到这台master机器上，所有的slave都可以通过网络跟master联通，每当一个slave完成下载一个网页，就向master请求一个新的网页来抓取。而每次slave新抓到一个网页，就把这个网页上所有的链接送到master的queue里去。同样，bloom filter也放到master上，但是现在master只发送确定没有被访问过的url给slave。Bloom Filter放到master的内存里，而被访问过的url放到运行在master上的Redis里，这样保证所有操作都是O(1)。（至少平摊是O(1)，Redis的访问效率见:LINSERT – Redis)”

其中的分布式体现在多台机器上的spider同时爬取（这里没有直接说明每台上的运行的spider数量，但分析好像是一个），并且这种分布式是通过scrapy-redis实现的，这里的queue指的就是redis queue。那么实现的就是使用redis存储url（分为没访问过的url_no和访问过的url_yes，他这里通过url_yes+bloom filter实现访问去重），这就是redis在分布式爬取中的作用。

（2）在“http://www.douban.com/group/topic/38363928/”中所述的：
“分布式使用redis实现，redis中存储了工程的request，stats信息，能够对各个机器上的爬虫实现集中管理，这样可以解决爬虫的性能瓶颈，利用redis的高效和易于扩展能够轻松实现高效率下载：当redis存储或者访问速度遇到瓶颈时，可以通过增大redis集群数和爬虫集群数量改善。 ”

同样是这个道理，但在这里指明的是在redis中存储的是request，这和scrapy-redis中的example很相似，当然在example中也实现了可以在redis中读取url的爬虫（younghz:这不就是（1）中分析的吗，对的，对的）。

所以上面两种方式就是redis在scrapy中的分布式爬虫的应用。本质上说，就是大家（所有机器，所有爬虫）把拿到的东西（url,request）放在一起(request queue)去调度。

young-hz

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scrapy-redis实现scrapy分布式爬取分析

（1）在“http://www.zhihu.com/question/20899988”中，提到的：“那么，假设你现在有100台机器可以用，怎么用python实现一个分布式的爬取算法呢？我们把这100台中的99台运算能力较小的机器叫作slave，另外一台较大的机器叫作master，那么回顾上面代码中的url_queue，如果我们能把这个queue放到这台master机器上，
复制链接

扫一扫