python爬虫--分布式爬虫

最新推荐文章于 2024-04-03 20:15:26 发布

王二空间

最新推荐文章于 2024-04-03 20:15:26 发布

阅读量423

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_38140936/article/details/103554144

版权

本文介绍了如何利用Scrapy-Redis构建分布式爬虫。首先讲解了Scrapy-Redis的架构，包括调度器和Item Pipeline。接着，详细阐述了scrapy-redis的安装步骤，并通过修改example项目进行实践，包括设置项目目录、调整settings.py和检查pipeline.py。最后，概述了分布式爬取的流程和案例。

摘要由CSDN通过智能技术生成

Scrapy-Redis分布式爬虫

介绍

scrapy-redis巧妙的利用redis 实现 request queue和 items queue，利用redis的set实现request的去重，将scrapy从单台机器扩展多台机器，实现较大规模的爬虫集群

scrapy-redis是基于redis的scrapy组件
• 分布式爬虫
    多个爬虫实例分享一个redis request队列，非常适合大范围多域名的爬虫集群
• 分布式后处理
    爬虫抓取到的items push到一个redis items队列,这就意味着可以开启多个items processes来处理抓取到的数据，比如存储到Mongodb、Mysql
• 基于scrapy即插即用组件
    Scheduler + Duplication Filter, Item Pipeline, Base Spiders.

scrapy-redis架构

• 调度器(Scheduler)

scrapy-redis调度器通过redis的set不重复的特性，实现了Duplication Filter去重（DupeFilter set存放爬取过的request）。
Spider新生成的request，将request的指纹到redis的DupeFilter set检查是否重复，并将不重复的request push写入redis的request队列。
调度器每次从redis的request队列里根据优先级pop出一个request, 将此request发给spider处理。

• Item Pipeline

将Spider爬取到的Item给scrapy-redis的Item Pipeline，将爬取到的Item存入redis的items队列。可以很方便的从items队列中提取item，从而实现items processes 集群

scrapy - redis安装与使用

安装scrapy-redis

之前已经装过scrapy了，这里直接装scrapy-redis

pip install scrapy-redis

使用scrapy-redis的example来修改

先从github上拿到scrapy-redis的example，然后将里面的example-project目录移到指定的地址

git clone https://github.com/rolando/scrapy-redis.git
cp -r scrapy-redis/example-project ./scrapy-youyuan

或者将整个项目下载回来scrapy-redis-master.zip解压后

cp -r scrapy-redis-master/example-project/ ./redis-youyuan
cd redis-youyuan/

tree查看项目目录

修改settings.py

注意：settings里面的中文注释会报错，换成英文

# 指定使用scrapy-redis的Scheduler
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 在redis中保持scrapy-redis用到的各个队列，从而允许暂停和暂停后恢复
SCHEDULER_PERSIST = True

# 指定排序爬取地址时使用的队列，默认是按照优先级排序
SCHEDUL