RuiJi Scraper 选择器

如之前课程所述,选择器首先是用来描述出需选择的数据块Block、数据片Tile或元数据Meta所在的区域,在RuiJi Scraper中,必须以Css选择器为开始。

在描述出需选择的区域之后,可以根据需要对选择出的区域的源代码进行下一步的清洗,整理。所以在RuiJi Scraper中选择器为一个数组。通常第一个选择器用来选择区域,之后的选择器用做清洗,整理数据之用。从第二个选择器开始,选择器的输入是上一个选择器的输出。

在RuiJi Scraper中提供了多种选择器,如果您对数据的精细度没有太大要求的话,只使用一个选择器就可以,如果您希望提取出的数据更加精确,更满足业务需要,您可以使用更多的选择器来达到您的目的。

RuiJi Scraper的选择器与RuiJi.Net的选择器一样,具有如下类型:

类型说明选项说明
cssCss选择器outerHTMLDom外部HTML
innerHTMLDom内部HTML
textDom内文本
AttributeDom上的属性
reg正则选择器n
[…]
可选填,数字类型
未定义取出正则匹配结果
已定义取出第n个结果,可以为多个
regS分割选择器strR n以正则strR进行分割,取第n个结果
text文本区域选择器beginR endR裁剪出beginR和endR之间的文本
ex排除选择器strR -a排除strR的正则结果
strR -b排除开始位置strR的正则结果
strR -e排除结束位置strR的正则结果
regR替换选择器strR str将strR的正则匹配结果替换成str
jpathJSON选择器path预留
xpathxpath选择器path预留
clear标签清除选择器tag清除tag标签
exp表达式选择器urlexp以通配符方式匹配出地址
proc函数选择器name需要执行的函数名称

其中n代表数字类型,以R为结尾的参数代表为正则表达式

qq群 : 545931923

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值