Python——分布式爬虫和redis

最新推荐文章于 2024-05-13 16:48:34 发布

莫悔

最新推荐文章于 2024-05-13 16:48:34 发布

阅读量1.5k

点赞数

分类专栏： Python 文章标签： Python

本文链接：https://blog.csdn.net/ljj950408/article/details/81636136

版权

25 篇文章 0 订阅

订阅专栏

一、分布式爬虫

1.分布式爬虫：（1）默认情况下，scrapy爬虫是单机爬虫，只能在一台电脑上运行；爬虫调度器中的队列去重、set集合都是在本机上创建，其他的电脑无法访问另外一台电脑上的内存内容。

（2）分布式爬虫用一个共同的爬虫程序，同时部署到多台电脑上运行；这样可以提高爬虫速度，实现分布式爬

虫。

2. 分布式爬虫的前提：（1）要保证每一台计算机都能够正常的执行scrapy命令，，能够启动爬虫。

（2）要保证所有的爬虫程序可以访问同一个队列和同一个set集合。

3.分布式爬虫的使用范围/要求：（1）分布式爬虫对电脑的性能有一定的要求（2）分布式爬虫对网速也有一定的要求，如果电脑性能和网速不是很好，爬虫效率就不如单机爬虫。

4.分布式爬虫经常和redis数据库一起使用，redis数据特点：（1）优点：体积小，使用方便；如果存储数据量比较大，启动速度很快，数据中的数据和内存的数据可以互相访问；（2）缺点：从安全的角度来说，持久化数据可能会崩溃，造成数据丢失。

5.要实现分布式爬虫，首先要配置服务器主从，配置主从的目的：（1）达到一个备份的功能。一旦master出现崩溃，而数据库中还有数据，可以将其中的一个slave重新设置为主服务器，从而恢复redis的正常运行；（2）一个redis服务器负责读写，性能较低，通过主从来减轻一个redis的压力。

6.redis主从的特点：（1）master只负责写入数据，slave只负责读取数据（2）当slave创建的时候，会向master发送一个同步的命令，master接收到命令以后，将同步数据给slave（3）master只能有一个，slave可以有多个。

二、redis

Redis 是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。

Redis 与其他 key - value 缓存产品有以下三个特点：

Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。
Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。
Redis支持数据的备份，即master-slave模式的数据备份。

redis的下载地址（https://github.com/MicrosoftArchive/redis/releases）,然后选择Redis-x64-3.2.100.zip进行下载。解压缩后，将解压的东西放进一个新建文件夹redis.

打开命令窗口，进入到redis文件夹，然后输入res-server redis.windows.conf

然后再开启一个cmd窗口，不能关闭原来的，不然就无法访问服务端了。进入到redis目录下，运行redis-cli -h 127.0.0.1 -p 6379；设置键值对set task1 spider_baidu，再取出键值对get task1

关注