微博爬虫搭建为分布式

最新推荐文章于 2021-11-30 21:39:05 发布

qq_42896149

最新推荐文章于 2021-11-30 21:39:05 发布

阅读量289

点赞数

分类专栏：爬虫文章标签：分布式爬虫

本文链接：https://blog.csdn.net/qq_42896149/article/details/88787654

版权

爬虫专栏收录该内容

3 篇文章 1 订阅

订阅专栏

为了实现微博数据一天一千万+的数据量，分布式爬虫是必须的，之前有提到过，但是没有写，现在来补全

废话不多说，分布式爬虫的优点相信大家都知道，就不多说了，

在将普通的爬虫改为分布式，只需要改两点即可，非常简单，不要被吓到

第一个：将单机爬虫继承的类改为分布式爬虫类，
from scrapy_redis.spiders import RedisSpider
class TagWeiboSpider(RedisSpider): <--------------RedisSpider

在这个类中加入一个类似开关的东西来控制分布式爬虫，
redis_key = ‘tag_weibo:start_url’
当我们没有发送这个的时候，分布式爬虫是不会跑的，就会一直停留在这里，等待我们发送第一个请求，
其中有个allowed_domains = [‘weibo.cn’]，这个就是允许你爬虫的范围，可以注释掉，注释掉之后起始爬虫的url就可以乱发，如果设定了这个，则只能发送这个来作为起始的url，看自己，其实注释掉完全无所谓

第二个：settings中的配置，
因为改为了分布式，所以调度存储等都需要换为分布式的一些东西
SCHEDULER = ‘scrapy_redis.scheduler.Scheduler’ # 调度
SCHEDULER_PERSIST = True #
SCHEDULER_QUEUE_CLASS = ‘scrapy_redis.queue.SpiderStack’ #存储队列，有queue,stack ,SpiderPriorityQueue，适当选择适合自己的
DUPEFILTER_CLASS = ‘scrapy_redis.dupefilter.RFPDupeFilter’ # 过滤器，存指纹

因为我们将所有的请求和指纹都存在了redis中，所以还需要指定redis一些列东西
REDIS_HOST = ‘’ #主机地址
REDIS_PORT = # 端口
REDIS_PARAMS = {‘db’:2} # 选择redis中存的数据库

到此为止，上述所有的配置就已经完成，启动几个爬虫之后，爬虫宝宝们就会一直等待，当我们在对应数据库中发送redis_key之后，其中一个爬虫宝宝接受到请求之后，就会开始跑起来了
select 2
lpush tag_weibo:start_url http://weibo.cn # 由于我设置了domain，所以这个位置就只能用http://weibo.cn, 其他的请求不行，这样我们的爬虫宝宝就可以动起来了 = =

qq_42896149

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
微博爬虫搭建为分布式

为了实现微博数据一天一千万+的数据量，分布式爬虫是必须的，之前又提到过，但是没有写，现在来补全废话不多说，分布式爬虫的有点相信大家都知道，就不多说了，在将普通的爬虫改为分布式，只需要改两点即可，非常简单，不要被吓到第一个：将单价爬虫继承的类改为分布式爬虫类，from scrapy_redis.spiders import RedisSpiderclass TagWeiboSpider(R...
复制链接

扫一扫