scrapy_redis 分布式去重配置

最新推荐文章于 2024-03-28 18:18:57 发布

匆匆流年。

最新推荐文章于 2024-03-28 18:18:57 发布

阅读量1.2w

点赞数 2

分类专栏：爬虫文章标签： scrapy 爬虫分布式 redis

本文链接：https://blog.csdn.net/m0_37932636/article/details/84031786

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

近期接手别人的爬虫项目，需要改写成分布式的方式部署上服务器，使用srapy_redis完成此项功能，记录下相关的配置信息

爬虫文件继承的类名必须更改为scrapy_redis对应的类名，在前面加上Redis即可

去重组件和调度器也需更改：

# DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# SCHEDULER = "scrapy_redis.scheduler.Scheduler"

此处本人使用的布隆过滤器的去重算法，故注释了以上2行

# 更换去重组件，节省内存(pip3 install scrapy-redis-bloomfilter) 此包由第三方开发人员提供，基于#scrapy_redis，更改了去重类
SCHEDULER = "scrapy_redis_bloomfilter.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter"
BLOOMFILTER_HASH_NUMBER = 6
# Bit 30-一亿级别的去重数量，大约占用128M内存，可根据自己的需求合理调整该值
BLOOMFILTER_BIT = 30

# 注：每个爬虫默认的去重key为爬虫类名:dupefilter（例：AilabSpider:dupefilter）
# 每个key直接占用redis 128M内存左右，如果运行多个爬虫，则乘以相应的数量（已采坑）
# 可使用

SCHEDULER_DUPEFILTER_KEY = 'news_data:dupefilter'

统一设置去重的key，
# 非DUPEFILTER_KEY = 'news_data:dupefilter'，开始还以为key是这样设置的，发现设置一直不起作用，追溯到源码中才知道
# 如何设置，以上为爬虫分布式基本功能的实现，后续再深入研究scrapy框架

匆匆流年。

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
scrapy_redis 分布式去重配置

近期接手别人的爬虫项目，需要改写成分布式的方式部署上服务器，使用srapy_redis完成此项功能，记录下相关的配置信息爬虫文件继承的类名必须更改为scrapy_redis对应的类名，在前面加上Redis即可去重组件和调度器也需更改：# DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# SCHEDULE...
复制链接

扫一扫