Python 爬虫,分布式爬虫,Scrapy_redis,RedisSpider,RedisCrawlSpider

安装 Scrapy_redis 模块: pip3 install scrapy-redis

 

项目名/spiders/爬虫名.py(爬虫,分布式爬虫,继承RedisSpider):

# -*- coding: utf-8 -*-
import scrapy
from scrapy_redis.spiders import RedisSpider  # 导入RedisSpider


# 爬虫,继承的是RedisSpider(分布式爬虫)
class DemoSpider(RedisSpider):
    name = '爬虫名'
    allowed_domains = ['baidu.com']
    # start_urls = ['http://www.baidu.com/']  # 多个分布式爬虫会多次重复请求start_urls中的地址。start_urls中的地址不会去重过滤。
    
    # redis中存放start_urls的键(键名可以任意)
    redis_key = "start_urls"   # 将start_urls中的地址存放到redis中。
    # 开启爬虫时,爬虫会先等待redis中的start_urls存放地址。
    # 当redis的start_urls中存放地址后,爬虫才会开始爬取,并同时将地址从start_urls中删除。
    # 其他的分布式爬虫会从request队列(调度器)中获取request对象并发送请求。
    # 这样start_urls中的地址只会请求一次。

    def parse(self, response):
        pass

项目名/se

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值