RuiJi Scraper 分页抽取

如果想抽取分页结,您需要在规则配置中配置分页选择器,分页选择器位于规则编辑器最下方,如图所示

请注意以下分页选择器的配置要求

1.  分页选择器的默认名称为 _paging,请不要修该名称

2. 分页选择器要求选择出的结果为链接地址

下面我们以百度新闻的搜索结果为例举例说明下分页选择的配置

首先观察下分页的形式,具有数字分页链接及上一页下一页的链接

我们需要提取出所有的地址,并排除掉上一页及下一页的超链接

最终的分页抽取器配置如下

如上选择器的解释为

1. 选择#page 元素的外部html源码

2. 排除带有class为n的a标签,并选择外部html(排除上一页及下一页的链接地址)

3. 选择a标签的href属性的值作为输出结果

转载于:https://my.oschina.net/zhupingqi/blog/2966926

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值