ubuntu上作主机
A . 主机---管理指纹队列,数据队列,request队:redis, 建议不要爬数据。
1台主机,用ubutnu系统
上课演示的是这台电脑也爬取,不光要安装redis, 还要安装scrapy(先)和scrapy-redis(后)
基本步奏:
1. 启动服务:redis-server
2. 使用 redis 客户端查看是否启动:redis-cli
必须安装的是redis: apt-get install redis-server
3. 如果要把当前电脑当成Master端把bind 127.0.0.1注释掉,进入配置文件:
sudo vi /etc/redis/redis.conf
4. windwo上面, 装并使用redis桌面管理软件,进行管理
步奏实现: ubuntu上装redis
1. cd, 在根目录下,装redis-server
sudo apt-get install redis-server
1.2 如果要把当前电脑当成Master端把bind 127.0.0.1注释掉,进入配置文件:
sudo vi /etc/redis/redis.conf
2. 启动 Redis 服务
redis-server
3.(ctrl +arl +t, 另一窗口) 启动redis 客户端
redis-cli
4.ping:pong
127.0.0.1 是本机 IP ,6379 是 redis 服务端口。现在我们输入 PING 命令------pong。
以上说明我们已经成功安装了redis。
5. 安装完成后,拷贝一份Redis安装目录下的redis.conf到任意目录,建议保存到:/etc/redis/redis.conf
6. (ps: ctrl +arl +t, 另一窗口下可) 查看版本及redis当前状态
查看版本服务端:
redis-server –version 和 redis-server -v
查看客户端:
redis-cli –version 和 redis-cli -v
查看redis当前状态
ps ajx|grep redis
window上装: RedisDesktopManager , 并连ubuntu上的redis, 管理redis数据
1, 点击RedisDesktopManager.exe 直接一步步安装就行,
2. 装好后, 链接上ubtuntu上的redis服务器
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/969185d318e72075a28d4e3ba2cacb90.png)
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/3d92264f33c757cca1c7d793ee809547.png)
2. 从机(奴隶),专门做爬取数据,只要运行代码:安装scrapy和scrapy-redis
从机2台
window一台,和另外一台ubuntu系统
各个电脑上安装scrapy, scrapy-redis:
安装scrapy命令:pip3 install scrapy
安装scrapy-redis命令:
Python3安装命令:sudo pip3 install scrapy-redis
3. 测试从机是否可用链接上主机的redis
从机上爬取的数据要--->传输到主机的redis,判断request是否请求
链接到主机的命令:redis-cli -h 主机的ip
例如:redis-cli -h 192.168.11.73
四、scrapy-redis源码自带项目说明
运行爬虫:
from scrapy import cmdline
cmdline.execute("scrapy crawl mycrawler_redis".split())
让爬虫开始爬取网站命令:
主机上进入到redis客户端:redis-cli
执行任务的命令:lpush mycrawler:start_urls https:
lpush redis_key(唯一) start_urls