搭建redis-scrapy分布式爬虫环境

最新推荐文章于 2024-05-18 21:28:12 发布

qq_42553082

最新推荐文章于 2024-05-18 21:28:12 发布

阅读量379

点赞数 1

文章标签： redis

本文链接：https://blog.csdn.net/qq_42553082/article/details/82667534

版权

ubuntu上作主机

A . 主机---管理指纹队列，数据队列，request队：redis, 建议不要爬数据。
     1台主机，用ubutnu系统
     上课演示的是这台电脑也爬取，不光要安装redis, 还要安装scrapy(先)和scrapy-redis（后）


    基本步奏： 
    1. 启动服务：redis-server
    2.  使用 redis 客户端查看是否启动：redis-cli
         必须安装的是redis： apt-get install redis-server

    3. 如果要把当前电脑当成Master端把bind 127.0.0.1注释掉，进入配置文件：
                    sudo vi /etc/redis/redis.conf
    4. windwo上面， 装并使用redis桌面管理软件，进行管理

步奏实现： ubuntu上装redis

1. cd,  在根目录下，装redis-server
sudo apt-get install redis-server

1.2   如果要把当前电脑当成Master端把bind 127.0.0.1注释掉，进入配置文件：
                    sudo vi /etc/redis/redis.conf


2. 启动 Redis 服务
redis-server

3.（ctrl +arl +t, 另一窗口） 启动redis 客户端
redis-cli

4.ping:pong
127.0.0.1 是本机 IP ，6379 是 redis 服务端口。现在我们输入 PING 命令------pong。

以上说明我们已经成功安装了redis。

5. 安装完成后，拷贝一份Redis安装目录下的redis.conf到任意目录，建议保存到：/etc/redis/redis.conf 

6. （ps:  ctrl +arl +t, 另一窗口下可） 查看版本及redis当前状态
查看版本服务端：
redis-server –version 和 redis-server -v 
查看客户端：
redis-cli –version 和 redis-cli -v 
查看redis当前状态
ps ajx|grep redis

window上装： RedisDesktopManager ，并连ubuntu上的redis, 管理redis数据

1， 点击RedisDesktopManager.exe 直接一步步安装就行，
2. 装好后， 链接上ubtuntu上的redis服务器

这里写图片描述

2. 从机（奴隶），专门做爬取数据，只要运行代码：安装scrapy和scrapy-redis
    从机2台
    window一台，和另外一台ubuntu系统

    各个电脑上安装scrapy, scrapy-redis:
        安装scrapy命令：pip3 install scrapy

        安装scrapy-redis命令：
        Python3安装命令：sudo pip3 install scrapy-redis

3. 测试从机是否可用链接上主机的redis

从机上爬取的数据要--->传输到主机的redis,判断request是否请求

链接到主机的命令：redis-cli -h 主机的ip
例如：redis-cli -h 192.168.11.73


四、scrapy-redis源码自带项目说明

运行爬虫：

from scrapy import cmdline
cmdline.execute("scrapy crawl mycrawler_redis".split())


让爬虫开始爬取网站命令：

主机上进入到redis客户端：redis-cli
执行任务的命令：lpush mycrawler:start_urls https://www.sina.com.cn/
             lpush         redis_key(唯一)          start_urls

qq_42553082

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
搭建redis-scrapy分布式爬虫环境

ubuntu上作主机A . 主机---管理指纹队列，数据队列，request队：redis, 建议不要爬数据。 1台主机，用ubutnu系统上课演示的是这台电脑也爬取，不光要安装redis, 还要安装scrapy(先)和scrapy-redis（后）基本步奏： 1. 启动服务：redis-server 2. 使用 redis 客户端查看是...
复制链接

扫一扫