怎样使用scrapy通过递归的方式进行采集?

1、需求,在进行采集时,没有一个总的入口页面,或者入口页面无法采集所有的页面。但是或许可以通过在内容页中类似“上一页”“下一页”来“循环的”采集。

2、重点在于rules

在scrapy中,通过定义规则rules就可以实现自动的迭代爬取,甚至爬取全站内容。写rules要特别注意,其中allow是指要导出的url必须符合allow所规定的正则表达式,而不是指从allow的网址中导出url。

scrapy的文档中是这么说的,

爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。 也许该spider并不是完全适合您的特定网站或项目,但其对很多情况都使用。 因此您可以以其为起点,根据需求修改部分方法。当然您也可以实现自己的spider。

除了从Spider继承过来的(您必须提供的)属性外,其提供了一个新的属性:

rules

一个包含一个(或多个) Rule 对象的集合(list)。 每个 Rule 对爬取网站的动作定义了特定表现。 Rule对象在下边会介绍。 如果多个rule匹配了相同的链接,则根据他们在本属性中被定义的顺序,第一个会被使用。

该spider也提供了一个可复写(overrideable)的方法:

parse_start_url(response)

当start_url的请求返回时,该方法被调用。 该方法分析最初的返回值并必须返回一个 Item 对象或者 一个 Request 对象或者 一个可迭代的包含二者对象。

我的理解是,定义了rules之后,在包含有返回item或者Request的方法中,使用scrapy.Request(url),同时满足rules的条件,就可以实现递归爬取。

3、上代码

# -*- coding: utf-8 -*-
import scrapy
from GongChang.items import GongchangItem
from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor

class BaiduspiderSpider(scrapy.Spider):
	name = "Baiduspider"
	allowed_domains = ["****.com"]
	start_urls = ['http://company.***.com/p-440000/33919988_f68d/']

        # 这里是用于递归调用的规则
	rules = [
		Rule(LinkExtractor(allow=(r'http://****.****.com/p-\d+/\d+_.*/')),callback='parse')
	]

	def parse(self, response):
		item = GongchangItem()
                # 获取下一页的链接
		nav_next = 'http:' + response.xpath('//div[@class="nav-next"]/a/@href')[0].extract()
		yield scrapy.Request(nav_next)
	        # 代码段
                       ……
                       ……
                       ……

		yield item

 

转载于:https://my.oschina.net/u/3280685/blog/893546

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值