scrapy_redis

scrapy_redis相关

Redis数据库

  1. 指纹集合
  2. 请求集合
  3. 数据

在终端执行 — slaver指令 : scrapy runspider test.py

1) test.py是你的爬虫文件名

在master_Redis数据库执行master指令: lpush redis_key url

1)redis_key 是自己设置的


请求出队列的三种形式

1.默认的scrapy优先级出队列(sorted)
2.队列形式(先进先出)
3.栈形式(先进后出)

把scrapy改成scrapy_redis需要改变的setting设置

1.调度器使用Redis的
2.去重(过滤)器使用Redis的
3.使用ScrapyRedis的队列(如果没有,默认使用scrapy的排序)
4.允许暂停
5.开启Redis管道
6.Redis的主机和端口

需要改变的爬虫文件

1.导入scrapy_redis.spider的RedisCrawlerSpider(更改爬虫父类)
2.去掉start_url,添加Redis_key
3.动态域的添加(改变----super(爬虫名))

slaver端的settings要指定master端Redis数据库的 Ip(字符串) 和 端口号(数字)

re.match 从头开始匹配,re.search从任何地方开始匹配

打包命令:tar -cvf yy.tar youyuan

解包命令: tar -xvf yy.tar

1.yy.tar是打包后的包名
2.yy是要打包的文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值