【爬虫】Web Scraper用法汇总

Web Scraper正则表达式

正则可视化网址:
https://jex.im/regulex/

正则测试网址:
https://jex.im/regulex/

unicode编码:
https://tools.fun/unicode.html

截取特定字符串后的内容:

例如,原文是下载:5000万+,想截取为5000万+
使用的regex是:[^\u4E0B\u8F7D\:]+
体现在导出的json中是:[^\\u4E0B\\u8F7D\\:]+
原理是:

图片名称
其中\u4E0B是“下”,\u8F7D是“载”。

截取字符串中间-案例1

例如,原文是Download XAPK(2.0 GB),想截取为XAPK
使用的regex是:[^Download (]+

截取字符串中间-案例2

例如,原文是Download XAPK(2.0 GB),想截取为2.0 GB
使用的regex是:[0-9][\S\s]*[^\)]

正则表达式基础

\s空白符,\S非空白符
$匹配字符串结尾

Web Scraper 选择子元素

nth-of-type结构伪类选择器

选中所有子元素:"selector": "tbody tr"
选中第1个子元素:"selector": "tbody tr:nth-of-type(1)"
选中前600子元素:"selector": "tbody tr:nth-of-type(-n+600)"
再例如:
选中所有奇数号子元素:nth-of-type(2n+1)
选中所有3n+1号子元素:nth-of-type(3n+1)
在这里插入图片描述

参考:https://blog.csdn.net/qq_45708377/article/details/125937964

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值