Python 爬虫，分布式爬虫，Scrapy_redis，RedisSpider，RedisCrawlSpider

最新推荐文章于 2024-05-01 16:19:15 发布

houyanhua1

最新推荐文章于 2024-05-01 16:19:15 发布

阅读量1.1k

点赞数 1

分类专栏： Python+ 文章标签： Python 爬虫 Scrapy_redis RedisSpider 分布式爬虫

本文链接：https://blog.csdn.net/houyanhua1/article/details/86582932

版权

安装 Scrapy_redis 模块： pip3 install scrapy-redis

项目名/spiders/爬虫名.py（爬虫，分布式爬虫，继承RedisSpider）：

# -*- coding: utf-8 -*-
import scrapy
from scrapy_redis.spiders import RedisSpider  # 导入RedisSpider


# 爬虫，继承的是RedisSpider（分布式爬虫）
class DemoSpider(RedisSpider):
    name = '爬虫名'
    allowed_domains = ['baidu.com']
    # start_urls = ['http://www.baidu.com/']  # 多个分布式爬虫会多次重复请求start_urls中的地址。start_urls中的地址不会去重过滤。
    
    # redis中存放start_urls的键(键名可以任意)
    redis_key = "start_urls"   # 将start_urls中的地址存放到redis中。
    # 开启爬虫时，爬虫会先等待redis中的start_urls存放地址。
    # 当redis的start_urls中存放地址后，爬虫才会开始爬取，并同时将地址从start_urls中删除。
    # 其他的分布式爬虫会从request队列(调度器)中获取request对象并发送请求。
    # 这样start_urls中的地址只会请求一次。

    def parse(self, response):
        pass

项目名/se

最低0.47元/天解锁文章

houyanhua1

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫，分布式爬虫，Scrapy_redis，RedisSpider，RedisCrawlSpider

安装 Scrapy_redis 模块： pip3 install scrapy-redis 项目名/spiders/爬虫名.py（爬虫，分布式爬虫，继承RedisSpider）：# -*- coding: utf-8 -*-import scrapyfrom scrapy_redis.spiders import RedisSpider # 导入RedisSpider# ...
复制链接

扫一扫

专栏目录