python爬虫:scrapy-redis实现分布式爬虫

环境搭建
1、需要安装 scrapy 和 scrapy-redis

pip install scrapy
pip install scrapy-redis

2、安装配置好 redis
找到redis.windows.conf文件,修改配置文件
打开redis.windows.conf,注释掉第56行

# bind 127.0.0.0

接着修改第75行,将yes改为no

protected-mod no

在123行添加代码

daemonize yes

第一步,配置settings.py

# 指定Redis数据库
REDIS_URL = "redis://localhost:6379"

# 使用scrapy-redis 的调度器替代原版调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 使用scrapy-redis 的去重过滤器替代原版
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 启用scrapy-redis 的 RedisPipeline
ITEM_PIPELINES = {
    "scrapy_redis.pipelines.RedisPipeline": 300,
}

# 爬虫停止后保留请求队列和去重集合
SCHEDULER_PERSIST = True, # False: 清理(默认)

第二步,修改爬虫文件

from scrapy_redis.spiders import RedisSpider

# 1. 修改基类: scrapy.Spider -> RedisSpider
class BooksSpider(RedisSpider):
    name = "books"
    # 2. 删除start_urls和allowed_domains
    # 3. 添加键
    redis_key = 'books:start_urls'

第三步,启动爬虫
在各个服务器启动爬虫,爬虫将会进入等待状态

scrapy crawl books

第四步,发送爬虫起点
books 为爬虫名称

# 先启动redis
$ redis-cli
> lpush books:start_urls "http://www.baidu.com"

# 查看过滤器数量
> scard books:dupefilter
(integer) 36001

# 查看请求队列数量
> zcard books:requests
(integer) 27410

# 查看保存数据数量
> llen books:items
(integer) 478118

第五步,导出数据

# -*- coding: utf-8 -*-

# @File    : export_data.py
# @Date    : 2018-05-21

# 从redis数据库导出数据

import json
import redis
from pprint import pprint

# redis中存放数据的key
ITEM_KEY = "books_distribution:items"

def process_item(item):
    """处理数据
    :param
        item{dict}: 单条数据
    :return:
        None
    """
    pprint(item)


r = redis.Redis(host="localhost", port=6379)

for _ in range(r.llen(ITEM_KEY)):
    data = r.lpop(ITEM_KEY)
    item = json.loads(data)
    process_item(item)

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Scrapy-Redis是一个基于Scrapy框架的分布式爬虫解决方案,它使用Redis作为分布式队列和去重集合,实现了多个爬虫节点共享一个Redis队列和去重集合,从而实现了高效的分布式爬取。 使用Scrapy-Redis,你可以很容易地将一个单机版的Scrapy爬虫转换成一个分布式爬虫。下面是简单的步骤: 1. 安装Redis和Scrapy-Redis 首先需要安装Redis,并且确保Redis服务正常运行。另外,需要安装Scrapy-Redis库,可以通过pip命令来进行安装: ``` pip install scrapy-redis ``` 2. 修改爬虫设置 在Scrapy爬虫的settings.py文件中,需要添加如下配置: ``` # 启用Redis调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 启用Redis去重过滤器 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 设置Redis为调度器和去重过滤器的数据存储位置 REDIS_URL = 'redis://localhost:6379' ``` 3. 修改爬虫代码 在Scrapy爬虫的代码中,需要将原来的start_urls修改为redis_key,例如: ``` class MySpider(RedisSpider): name = 'myspider' redis_key = 'myspider:start_urls' ``` 另外,需要将原来的parse方法改为如下形式: ``` def parse(self, response): # 爬虫代码 yield scrapy.Request(url, callback=self.parse_item) ``` 4. 运行爬虫 在启动爬虫之前,需要先往Redis队列中添加起始URL,例如: ``` redis-cli lpush myspider:start_urls http://www.example.com ``` 然后在命令行中启动分布式爬虫,例如: ``` scrapy crawl myspider ``` 这样就可以启动一个分布式的Scrapy爬虫了。在多个爬虫节点共享同一个Redis队列和去重集合的情况下,可以大大提高爬取效率和速度。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿肆si

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值