简单的介绍分布式爬虫与redis

最新推荐文章于 2024-06-27 18:11:34 发布

江玉郎

最新推荐文章于 2024-06-27 18:11:34 发布

阅读量876

点赞数

文章标签：分布式 redis

本文链接：https://blog.csdn.net/qq_39610888/article/details/81637349

版权

一什么是分布式爬虫？

1.默认情况下，scrapy爬虫是单机爬虫，只能在一台电脑上运行，因为爬虫调度器当中的队列queue去重和set集合都是在本机上创建的，其他的电脑无法访问另外一台电脑上的内存的内容
2.分布式爬虫用一个共同的爬虫程序，同时部署到多台电脑上运行。这样可以提高爬虫速度，实现分布式爬虫

二分布式爬虫的前提：

1.要保证每一台计算机都能够正常的执行scrapy命令，能够启动爬虫
2.要保证所有的爬虫程序可以访问同一个队列一个set集合scrapy_redis
想要保证多台机器共用一个queue队列和set集合，scrapy中是结合scrapy_redis完成的分布式爬虫可以让所有机器上的爬虫程序，从同一个queue队列中获取request请求，并且每个机器取出request请求的对象是不一样的，直到所有的request被请求完毕。

三 redis 的安装

1 在官网下载该文件
这里写图片描述
2 创建一个文件夹，将下载的内容解压到该文件夹
3，终端进入redis 文件夹，输入命令：redis-server redis.windows.conf
（可以将redis 的路径添加到环境变量，这样以后会方便一点）

4 重新打开一个终端，输入 redis-cli -h 127.0.0.1 -p 6379 ，表示连接到自己的主机，再设置键值对如下图所示
这里写图片描述
（还有一个问题，环境变量配置好了，并不能在终端直接进入）
5 如果想在两个电脑间进行测试，如果想要在让B电脑连接到A电脑上，需要获取A电脑的IP， B电脑需要设置redis-cli -h A电脑ip ，
在B电脑终端输入命令get key1，就可以获取刚才A电脑上的key1值，如果出错，需要设置A电脑上的配置文件
第一个： 55行： 127.0.0.1注释掉
第二个：75行： protected-mode no 关闭保护模式
第三个： 123 行加上 dazmoize no 关系守护进程
这里写图片描述

redis作为缓存服务器，主要试讲数据在内存中进行缓存，但是一台几区的内存和性能是有限的，当对于redis数据库的数据进行读写量较大的时候，那么一台reids就不能满足需求了，此时，需要将redis部署到多台机器上，用于写入数据的redis，称之为master，而只负责读取数据的redis，称之为slave
redis主从的特点
1.master只负责写入数据，slave只负责读取数据
2.当slave创建的时候，会向master发送一个同步的命令，master接受到命令以后将数据同步给slave
3.master只能有一个，slave可以有多个