19.爬虫:scrapy-redis分布式爬虫

最新推荐文章于 2024-06-23 16:01:36 发布

奇巧小软件

最新推荐文章于 2024-06-23 16:01:36 发布

阅读量1.4k

点赞数 1

文章标签：后端

本文链接：https://blog.csdn.net/agdzxzfdyw/article/details/127497494

版权

一.概述:分布式爬虫

分布式爬虫:多台电脑一起爬取数据

单机爬虫:一台电脑自己爬取数据

分布式爬虫的优点:1.充分利用多台机器的带宽加速爬取;2.充分利用多台机子的IP来爬取,总而言之,十个人干活肯定比一个人干活来的快和好

那么,当同一个爬虫程序在多台电脑上同步爬取数据,如何保证A电脑爬取的数据,在B电脑上不会重复爬取.

这就需要统一的状态的管理器(redis)来统一管理,主要承担request的队列的调度与去重等功能

二.概述:redis

redis的本质是内存数据库,key-value存储系统

它支持的value类型有:string, list, set, zset(有序集合), hash(字典)

github上搜索redis-windows即可下载zip包

set course "scrapy-redis"  #string
get course
getrange course 2 4  #获取字符串子串
strlen course  #获取字符串长度
incr count #针对整型或者可以转换成整型的str,做加1操作
decr count #同上,减1
append course aaa  #原str末尾追加字符串

hset course_dict egg "scrapy-redis"  #hset-->字典
hget course_dict egg  #返回字典键对应的值
hgetall course_dict  #返回字典的键和值
hexists course_dict egg #返回0或1,代表键是否存在,1为存在
hdel course_dict egg #删除键值
hkeys course_dict #返回所有的键
hvals course_dict #返回所有的值

lpush courses django #从列表的左边插入,即:列表表头插入
rpush courses redis #同上,从列表的右边插入
lrange courses 0 10 #查看列表前10个,10超过列表长度不会报错
blpop courses 3 #从列表左边开始删除1个值,3代表3秒,如果对应列表有则直接删除,如果没有则会等待3秒,b代表阻塞
brpop course 3 #同上
lpop key #从列表左边开始删除1个值
rpop key #从列表右边开始删除1个值 
llen courses #返回列表长度
lindex courses 0 #返回列表第0个元素

sadd course_set django #无序set,返回0/1,1代表集合里面没有并放入集合,0代表集合里面有了
scard course_set #返回集合的长度
sdiff set1 set2 #集合相减,减掉交集
sinter set1 set2 #集合求交集
spop course_set #随机删除一个元素并将其返回
srandmember course_set 3#随机获取3个元素
smembers course_set #获得集合内所有的元素

zadd myset 0 django 1 scrapy 5 redis 10 python #有序集合
zrangebyscore myset 0 100 #返回分数为0到100之间的值
zcount myset 0 100 #返回分数为0到100之间的值的个数

keys *     #查看所有所有的键
type key   #查看键对应value的类型

三.scrapy-redis搭建分布式爬虫

github上搜索scrapy-redis

https://github.com/rmax/scrapy-redis

将下载下来的包里面的src下的scrapy-redis文件夹拷贝到自己的项目下

另外安装redis的驱动:pip install redis

我们以scrapy-redis里面的example为例来介绍

第一步:自己写的spider程序继承RedisSpider,然后原先爬取的逻辑该怎么写还怎么写

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):    # 继承RedisSpider
    """Spider that reads urls from redis queue (myspider:start_urls)."""
    name = 'myspider_redis'
    redis_key = 'myspider:start_urls'

    def __init__(self, *args, **kwargs):
        # Dynamically define the allowed domains list.
        domain = kwargs.pop('domain', '')
        self.allowed_domains = filter(None, domain.split(','))
        super(MySpider, self).__init__(*args, **kwargs)

    def parse(self, response):
        return {
            'name': response.css('title::text').extract_first(),
            'url': response.url,
        }

第二步:setting配置修改如下

#  把scrapy中默认的调度器替换成scrapy-redis中的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#  把scrapy中默认的去重组件替换为scrapy-redis中的去重组件
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#  添加scrapy-redis管道
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300
}

# 添加redis数据库的连接URL
# REDIS_URL = 'redis://127.0.0.1:6379'
REDIS_HOST = 'localhost'
REDIS_PORT = 6379
REDIS_PARAMS = {}
REDIS_PARAMS['password'] = '12345'