scrapy爬虫之使用模板实现双向爬虫

使用 crawl模板实现

scrapy genspider -t crawl books3 books.toscrape.com
初始化的文件内容
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class Books3Spider(CrawlSpider):
    name = 'books3'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        item = {}
        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        #item['name'] = response.xpath('//div[@id="name"]').get()
        #item['description'] = response.xpath('//div[@id="description"]').get()
        return item

crawl模板通过Rule来管理我们提取得url链接
通过LinkExtractor来提取url
通过callback来回调数据提取方法,使用了callback后不会跟踪已经抽取的url,如果你需要,要在callback调用的方法进行返回,或使用follow将参数设为True

具体代码,在链接中的book3.py中

这里我们是用来一个新的类LinkExtractor

这是一个用来获取链接的类
下一篇具体介绍用法

LinkExtractor的使用:LinkExtractor使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值