将scrapy爬虫改写为分布式爬虫redis-scrapy

最新推荐文章于 2024-05-31 14:51:40 发布

yunblog

最新推荐文章于 2024-05-31 14:51:40 发布

阅读量168

点赞数

分类专栏： python scrapy redis-scrapy

本文链接：https://blog.csdn.net/m0_37746694/article/details/100603156

版权

python 同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

scrapy

3 篇文章 0 订阅

订阅专栏

redis-scrapy

1 篇文章 0 订阅

订阅专栏

1，进入settings.py

# 以下是加入的内容
# 1.(必须加)。使用scrapy_redis.duperfilter.REPDupeFilter的去重组件，在redis数据库里做去重。
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2.（必须加）。使用了scrapy_redis的调度器，在redis里面分配请求。
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3.（必须加）。在redis queues 允许暂停和暂停后恢复，也就是不清理redis queues
SCHEDULER_PERSIST = True
# 4.（必须加）。通过RedisPipeline将item写入key为 spider.name: items的redis的list中，供后面的分布式处理item。
# 这个已经由scrapy-redis实现了，不需要我们自己手动写代码，直接使用即可。
ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline': 100
}
REDIS_HOST = "127.0.0.1"
REDIS_PORT = 6379

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yunblog

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
将scrapy爬虫改写为分布式爬虫redis-scrapy

1，进入settings.py# 以下是加入的内容# 1.(必须加)。使用scrapy_redis.duperfilter.REPDupeFilter的去重组件，在redis数据库里做去重。DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 2.（必须加）。使用了scrapy_redis的调度器，在redis里面分配请求。...
复制链接

扫一扫