python爬虫：scrapy-redis实现分布式爬虫

阿肆si

已于 2022-06-30 16:50:37 修改

阅读量1.2w

点赞数 1

分类专栏： scrapy 文章标签： python 爬虫分布式 redis 大数据

于 2021-03-01 16:53:26 首次发布

本文链接：https://blog.csdn.net/Aacheng123/article/details/114265960

版权

scrapy 专栏收录该内容

7 篇文章 2 订阅

订阅专栏

环境搭建
1、需要安装 scrapy 和 scrapy-redis

pip install scrapy
pip install scrapy-redis

2、安装配置好 redis
找到redis.windows.conf文件，修改配置文件
打开redis.windows.conf，注释掉第56行

# bind 127.0.0.0

接着修改第75行，将yes改为no

protected-mod no

在123行添加代码

daemonize yes

第一步，配置settings.py

# 指定Redis数据库
REDIS_URL = "redis://localhost:6379"

# 使用scrapy-redis 的调度器替代原版调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 使用scrapy-redis 的去重过滤器替代原版
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 启用scrapy-redis 的 RedisPipeline
ITEM_PIPELINES = {
    "scrapy_redis.pipelines.RedisPipeline": 300,
}

# 爬虫停止后保留请求队列和去重集合
SCHEDULER_PERSIST = True, # False: 清理（默认）

第二步，修改爬虫文件

from scrapy_redis.spiders import RedisSpider

# 1. 修改基类: scrapy.Spider -> RedisSpider
class BooksSpider(RedisSpider):
    name = "books"
    # 2. 删除start_urls和allowed_domains
    # 3. 添加键
    redis_key = 'books:start_urls'

第三步，启动爬虫
在各个服务器启动爬虫，爬虫将会进入等待状态

scrapy crawl books

第四步，发送爬虫起点
books 为爬虫名称

# 先启动redis
$ redis-cli
> lpush books:start_urls "http://www.baidu.com"

# 查看过滤器数量
> scard books:dupefilter
(integer) 36001

# 查看请求队列数量
> zcard books:requests
(integer) 27410

# 查看保存数据数量
> llen books:items
(integer) 478118

第五步，导出数据

# -*- coding: utf-8 -*-

# @File    : export_data.py
# @Date    : 2018-05-21

# 从redis数据库导出数据

import json
import redis
from pprint import pprint

# redis中存放数据的key
ITEM_KEY = "books_distribution:items"

def process_item(item):
    """处理数据
    :param
        item{dict}: 单条数据
    :return:
        None
    """
    pprint(item)


r = redis.Redis(host="localhost", port=6379)

for _ in range(r.llen(ITEM_KEY)):
    data = r.lpop(ITEM_KEY)
    item = json.loads(data)
    process_item(item)

阿肆si

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
1
评论
python爬虫：scrapy-redis实现分布式爬虫

环境搭建1、需要安装 scrapy 和 scrapy-redispip install scrapypip install scrapy-redis2、安装配置好 redis如果是mac种用homebrew安装的redis，配置文件路径为：/usr/local/etc/redis.conf修改配置文件打开redis.windows.conf，注释掉第56行# bind 127.0.0.0接着修改第75行，将yes改为noprotected-mod no在123行添加代码d
复制链接

扫一扫