scrapy_redis相关
Redis数据库
- 指纹集合
- 请求集合
- 数据
在终端执行 — slaver指令 : scrapy runspider test.py
1) test.py是你的爬虫文件名
在master_Redis数据库执行master指令: lpush redis_key url
1)redis_key 是自己设置的
请求出队列的三种形式
1.默认的scrapy优先级出队列(sorted)
2.队列形式(先进先出)
3.栈形式(先进后出)
把scrapy改成scrapy_redis需要改变的setting设置
1.调度器使用Redis的
2.去重(过滤)器使用Redis的
3.使用ScrapyRedis的队列(如果没有,默认使用scrapy的排序)
4.允许暂停
5.开启Redis管道
6.Redis的主机和端口
需要改变的爬虫文件
1.导入scrapy_redis.spider的RedisCrawlerSpider(更改爬虫父类)
2.去掉start_url,添加Redis_key
3.动态域的添加(改变----super(爬虫名))
slaver端的settings要指定master端Redis数据库的 Ip(字符串) 和 端口号(数字)
re.match 从头开始匹配,re.search从任何地方开始匹配
打包命令:tar -cvf yy.tar youyuan
解包命令: tar -xvf yy.tar
1.yy.tar是打包后的包名
2.yy是要打包的文件