Python——分布式爬虫和redis

一、分布式爬虫

   1.分布式爬虫:(1)默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行;爬虫调度器中的队列去重、set集合都是                                           在本机上创建,其他的电脑无法访问另外一台电脑上的内存内容。

                             (2)分布式爬虫用一个共同的爬虫程序,同时部署到多台电脑上运行;这样可以提高爬虫速度,实现分布式爬

                                      虫。

    2. 分布式爬虫的前提:(1)要保证每一台计算机都能够正常的执行scrapy命令,,能够启动爬虫。

                                         (2)要保证所有的爬虫程序可以访问同一个队列和同一个set集合。

    3.分布式爬虫的使用范围/要求:(1)分布式爬虫对电脑的性能有一定的要求(2)分布式爬虫对网速也有一定的要求,如果电脑                                                                 性能和网速不是很好,爬虫效率就不如单机爬虫。

    4.分布式爬虫经常和redis数据库一起使用,redis数据特点:(1)优点:体积小,使用方便;如果存储数据量比较大,启动速度很快,数据中的数据和内存的数据可以互相访问;(2)缺点:从安全的角度来说,持久化数据可能会崩溃,造成数据丢失。

    5.要实现分布式爬虫,首先要配置服务器主从,配置主从的目的:(1)达到一个备份的功能。一旦master出现崩溃,而数据库中还有数据,可以将其中的一个slave重新设置为主服务器,从而恢复redis的正常运行;(2)一个redis服务器负责读写,性能较低,通过主从来减轻一个redis的压力。

     6.redis主从的特点:(1)master只负责写入数据,slave只负责读取数据(2)当slave创建的时候,会向master发送一个同步的命令,master接收到命令以后,将同步数据给slave(3)master只能有一个,slave可以有多个。

二、redis

Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。

Redis 与其他 key - value 缓存产品有以下三个特点:

Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。
Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。
Redis支持数据的备份,即master-slave模式的数据备份。

redis的下载地址(https://github.com/MicrosoftArchive/redis/releases),然后选择Redis-x64-3.2.100.zip进行下载。解压缩后,将解压的东西放进一个新建文件夹redis.

打开命令窗口,进入到redis文件夹,然后输入res-server redis.windows.conf

 然后再开启一个cmd窗口,不能关闭原来的,不然就无法访问服务端了。进入到redis目录下,运行redis-cli -h 127.0.0.1 -p 6379;设置键值对set task1 spider_baidu,再取出键值对get task1

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Scrapy-Redis是一个基于Scrapy框架的分布式爬虫解决方案,它使用Redis作为分布式队列和去重集合,实现了多个爬虫节点共享一个Redis队列和去重集合,从而实现了高效的分布式爬取。 使用Scrapy-Redis,你可以很容易地将一个单机版的Scrapy爬虫转换成一个分布式爬虫。下面是简单的步骤: 1. 安装Redis和Scrapy-Redis 首先需要安装Redis,并且确保Redis服务正常运行。另外,需要安装Scrapy-Redis库,可以通过pip命令来进行安装: ``` pip install scrapy-redis ``` 2. 修改爬虫设置 在Scrapy爬虫的settings.py文件中,需要添加如下配置: ``` # 启用Redis调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 启用Redis去重过滤器 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 设置Redis为调度器和去重过滤器的数据存储位置 REDIS_URL = 'redis://localhost:6379' ``` 3. 修改爬虫代码 在Scrapy爬虫的代码中,需要将原来的start_urls修改为redis_key,例如: ``` class MySpider(RedisSpider): name = 'myspider' redis_key = 'myspider:start_urls' ``` 另外,需要将原来的parse方法改为如下形式: ``` def parse(self, response): # 爬虫代码 yield scrapy.Request(url, callback=self.parse_item) ``` 4. 运行爬虫 在启动爬虫之前,需要先往Redis队列中添加起始URL,例如: ``` redis-cli lpush myspider:start_urls http://www.example.com ``` 然后在命令行中启动分布式爬虫,例如: ``` scrapy crawl myspider ``` 这样就可以启动一个分布式的Scrapy爬虫了。在多个爬虫节点共享同一个Redis队列和去重集合的情况下,可以大大提高爬取效率和速度。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值