scrapy_redis

1.下载及安装redis
Window 下安装
下载地址:https://github.com/MSOpenTech/redis/releases
Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包到 C 盘,解压后,将文件夹重新命名为 redis。

打开一个 cmd 窗口 使用cd命令切换目录到 C:\redis 运行 redis-server.exe redis.windows.conf 。
如果想方便的话,可以把 redis 的路径加到系统的环境变量里,这样就省得再输路径了,后面的那个 redis.windows.conf 可以省略,如果省略,会启用默认的。输入之后,会显示如下界面:
这里写图片描述

这时候另启一个cmd窗口,原来的不要关闭,不然就无法访问服务端了。
切换到redis目录下运行 redis-cli.exe -h 127.0.0.1 -p 6379 ,启动redis。
这里写图片描述

2.利用Redis Desktop Manager,redis数据可视化窗口
Redis Desktop Manager使用方法参照:http://jingyan.baidu.com/album/0a52e3f4ddec49bf62ed720c.html?picindex=1

这里写图片描述

3.scrapy_redis
@在github中下载scrapy_redis源码
下载地址:https://github.com/rmax/scrapy-redis

这里写图片描述

下载scrapy_redis后将 \\scrapy-redis-master\src\scrapy_redis 放在新建scrapy-redis的工程中

这里写图片描述

开始scrapy_redis,主要注意spider需要集成RedisSpider,其他都差不多,如果没有redis_key的话会有默认值。并且在setting中配置好redis。
1. #启用Redis调度存储请求队列
SCHEDULER = “scrapy_redis.scheduler.Scheduler
2. #确保所有的爬虫通过Redis去重
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”
3.#将清除的项目在redis进行处理
ITEM_PIPELINES = {
‘scrapy_redis.pipelines.RedisPipeline’: 300
}

class JobboleSpider(RedisSpider):
    name = 'Jobbole'
    allowed_domains = ["blog.jobbole.com"]
    redis_key = 'Jobbole:start_urls'

启动scrapy_redis之前需要启动好redis。
在启动scrapy_redis之后,scrapy工程是停滞的,需要在redis中加入start_url
#lpush Jobbole:start_urls http://blog.jobbole.com/all-posts/

其他一切与scrapy_spider一致。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值