scrapy-redis 配置篇

最新推荐文章于 2022-12-06 14:21:38 发布

weixin_30737363

最新推荐文章于 2022-12-06 14:21:38 发布

阅读量485

点赞数

文章标签：数据库 python

原文链接：http://www.cnblogs.com/zenan/p/10329389.html

版权

修改setting.py文件

# 1(必须). 使用了scrapy_redis的去重组件，在redis数据库里做去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 2(必须). 使用了scrapy_redis的调度器，在redis里分配请求
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 3(必须). 在redis中保持scrapy-redis用到的各个队列，从而允许暂停和暂停后恢复，也就是不清理redis queues
SCHEDULER_PERSIST = True

# 4(必须). 通过配置RedisPipeline将item写入key为 spider.name : items 的redis的list中，供后面的分布式处理item
# 这个已经由 scrapy-redis 实现，不需要我们写代码，直接使用即可
ITEM_PIPELINES = {
    'project.pipelines.Mypipeline': 100
}

# 5(必须). 指定redis数据库的连接参数
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379

# 6.如果不启用则按scrapy默认的策略
#  -1. 默认的 按优先级排序(Scrapy默认)，由sorted set实现的一种非FIFO、LIFO方式。
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
#  -2. 可选的 按先进先出排序（FIFO）
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderQueue'
#  -3. 可选的 按后进先出排序（LIFO）
# SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderStack'

# 7. LOG等级
#LOG_LEVEL = 'DEBUG'

spider.py

from scrapy_redis.spiders import RedisSpider

class ExampleSpider(RedisSpider):
    name = 'example'
    redis_key = 'example:start_urls'

　scrapy-redis 默认为get请求，那么post请求如何处理。其实这是考到你会不会变通，知识点就是中间件的process_request,正则匹配需要post请求的url规则，自行使用requests发起请求，返回 scrapy.http.HtmlResponse对象即可。相当于自行实现了download下载器

转载于:https://www.cnblogs.com/zenan/p/10329389.html

weixin_30737363

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy-redis 配置篇

修改setting.py文件# 1(必须). 使用了scrapy_redis的去重组件，在redis数据库里做去重DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 2(必须). 使用了scrapy_redis的调度器，在redis里分配请求SCHEDULER = "scrapy_redis.schedul...
复制链接

扫一扫