1、需求,在进行采集时,没有一个总的入口页面,或者入口页面无法采集所有的页面。但是或许可以通过在内容页中类似“上一页”“下一页”来“循环的”采集。
2、重点在于rules
在scrapy中,通过定义规则rules就可以实现自动的迭代爬取,甚至爬取全站内容。写rules要特别注意,其中allow是指要导出的url必须符合allow所规定的正则表达式,而不是指从allow的网址中导出url。
scrapy的文档中是这么说的,
爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。 也许该spider并不是完全适合您的特定网站或项目,但其对很多情况都使用。 因此您可以以其为起点,根据需求修改部分方法。当然您也可以实现自己的spider。
除了从Spider继承过来的(您必须提供的)属性外,其提供了一个新的属性:
rules
一个包含一个(或多个) Rule
对象的集合(list)。 每个 Rule
对爬取网站的动作定义了特定表现。 Rule对象在下边会介绍。 如果多个rule匹配了相同的链接,则根据他们在本属性中被定义的顺序,第一个会被使用。
该spider也提供了一个可复写(overrideable)的方法:
parse_start_url
(response)
当start_url的请求返回时,该方法被调用。 该方法分析最初的返回值并必须返回一个 Item
对象或者 一个 Request
对象或者 一个可迭代的包含二者对象。
我的理解是,定义了rules之后,在包含有返回item或者Request的方法中,使用scrapy.Request(url),同时满足rules的条件,就可以实现递归爬取。
3、上代码
# -*- coding: utf-8 -*-
import scrapy
from GongChang.items import GongchangItem
from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor
class BaiduspiderSpider(scrapy.Spider):
name = "Baiduspider"
allowed_domains = ["****.com"]
start_urls = ['http://company.***.com/p-440000/33919988_f68d/']
# 这里是用于递归调用的规则
rules = [
Rule(LinkExtractor(allow=(r'http://****.****.com/p-\d+/\d+_.*/')),callback='parse')
]
def parse(self, response):
item = GongchangItem()
# 获取下一页的链接
nav_next = 'http:' + response.xpath('//div[@class="nav-next"]/a/@href')[0].extract()
yield scrapy.Request(nav_next)
# 代码段
……
……
……
yield item