rides-scrapy 分布式爬取当当网图书

本文介绍了使用rides-scrapy框架进行分布式爬取当当网图书的方法,涉及Spider的两种继承方式——RedisSpider和RedisCrawlSpider,以及settings的配置,items定义和pipelines处理流程。RedisCrawlSpider简化了代码,适用于内容结构规范的网站。
摘要由CSDN通过智能技术生成

Spider

继承 RedisSpider 的 Spider

# -*- coding: utf-8 -*-
import scrapy
from circ.items import CircItem
from copy import deepcopy
from scrapy_redis.spiders import RedisSpider

class DangSpider(RedisSpider):
    name = 'dang'
    allowed_domains = ['dangdang.com']
    # start_urls = ['http://book.dangdang.com/']
    # redis 数据库内建立 lpush 表 redis_key 为表名 start_urls 为内容
    redis_key = 'dang'

    def parse(self, response):
        item = CircItem()
        div_list = response.xpath('//div[@class="con flq_body"]/div')[2:-1]
        for div in div_list:
            for dl in div.xpath('.//div[@class="col eject_left"]/dl'):
                book_class = dl.xpath('./dt/a/text()').extract()
                item['book_class'] = book_class[0].strip() if book_class else None
                for i in dl.xpath('./dd/a'):
                    item['book_label'] = i.xpath('./@title').extract()[0].strip()
                    href = i.xpath('./@href').extract()[
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Rides是一个分布式锁实现的库,它提供了简单而强大的分布式锁功能。你可以使用Rides来保证在分布式系统中的多个节点之间互斥地访问共享资源。 要使用Rides实现分布式锁,你需要先安装Rides库,并确保所有的节点都能够访问到该库。然后,你可以按照以下步骤来实现分布式锁: 1. 创建一个Rides实例:首先,你需要创建一个Rides实例,这个实例将负责协调各个节点之间的锁状态。你可以使用Rides的构造函数来创建实例,传入一个唯一的标识符作为参数。 2. 获取锁:当一个节点需要访问共享资源时,它可以通过调用Rides实例的`acquire`方法来获取锁。这个方法会返回一个布尔值,表示是否成功获取到了锁。如果获取到了锁,节点就可以继续执行后续的操作;如果没有获取到锁,则需要等待一段时间后再次尝试。 3. 释放锁:当一个节点完成了对共享资源的访问后,它应该调用Rides实例的`release`方法来释放锁。这样,其他节点就有机会获取到锁并继续执行它们的操作。 需要注意的是,Rides并不提供自动解锁的功能。所以,在使用Rides时,你需要确保在获取到锁之后,一定要记得在适当的时候释放锁,否则可能会导致资源无法被其他节点访问。 以上就是使用Rides实现分布式锁的基本步骤。通过Rides,你可以方便地实现分布式系统中的资源互斥访问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值