怎样使用scrapy通过递归的方式进行采集？

最新推荐文章于 2024-05-13 00:51:49 发布

cheyuan4575

最新推荐文章于 2024-05-13 00:51:49 发布

阅读量297

点赞数

文章标签： python

原文链接：https://my.oschina.net/u/3280685/blog/893546

版权

1、需求，在进行采集时，没有一个总的入口页面，或者入口页面无法采集所有的页面。但是或许可以通过在内容页中类似“上一页”“下一页”来“循环的”采集。

2、重点在于rules

在scrapy中，通过定义规则rules就可以实现自动的迭代爬取，甚至爬取全站内容。写rules要特别注意，其中allow是指要导出的url必须符合allow所规定的正则表达式，而不是指从allow的网址中导出url。

scrapy的文档中是这么说的，

爬取一般网站常用的spider。其定义了一些规则(rule)来提供跟进link的方便的机制。也许该spider并不是完全适合您的特定网站或项目，但其对很多情况都使用。因此您可以以其为起点，根据需求修改部分方法。当然您也可以实现自己的spider。

除了从Spider继承过来的(您必须提供的)属性外，其提供了一个新的属性:

rules

一个包含一个(或多个) Rule 对象的集合(list)。每个 Rule 对爬取网站的动作定义了特定表现。 Rule对象在下边会介绍。如果多个rule匹配了相同的链接，则根据他们在本属性中被定义的顺序，第一个会被使用。

该spider也提供了一个可复写(overrideable)的方法:

parse_start_url(response)

当start_url的请求返回时，该方法被调用。该方法分析最初的返回值并必须返回一个 Item 对象或者一个 Request 对象或者一个可迭代的包含二者对象。

我的理解是，定义了rules之后，在包含有返回item或者Request的方法中，使用scrapy.Request(url)，同时满足rules的条件，就可以实现递归爬取。

3、上代码

# -*- coding: utf-8 -*-
import scrapy
from GongChang.items import GongchangItem
from scrapy.spiders import Rule
from scrapy.linkextractors import LinkExtractor

class BaiduspiderSpider(scrapy.Spider):
	name = "Baiduspider"
	allowed_domains = ["****.com"]
	start_urls = ['http://company.***.com/p-440000/33919988_f68d/']

        # 这里是用于递归调用的规则
	rules = [
		Rule(LinkExtractor(allow=(r'http://****.****.com/p-\d+/\d+_.*/')),callback='parse')
	]

	def parse(self, response):
		item = GongchangItem()
                # 获取下一页的链接
		nav_next = 'http:' + response.xpath('//div[@class="nav-next"]/a/@href')[0].extract()
		yield scrapy.Request(nav_next)
	        # 代码段
                       ……
                       ……
                       ……

		yield item

转载于:https://my.oschina.net/u/3280685/blog/893546

cheyuan4575

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
怎样使用scrapy通过递归的方式进行采集？

1、需求，在进行采集时，没有一个总的入口页面，或者入口页面无法采集所有的页面。但是或许可以通过在内容页中类似“上一页”“下一页”来“循环的”采集。 2、重点在于rules 在scrapy中，通过定义规则rules就可以实现自动的迭代爬取，甚至爬取全站内容。写rules要特别注意，其中all...
复制链接

扫一扫