Web Scraper正则表达式
正则可视化网址:
https://jex.im/regulex/
正则测试网址:
https://jex.im/regulex/
unicode编码:
https://tools.fun/unicode.html
截取特定字符串后的内容:
例如,原文是下载:5000万+
,想截取为5000万+
使用的regex是:[^\u4E0B\u8F7D\:]+
体现在导出的json中是:[^\\u4E0B\\u8F7D\\:]+
原理是:
截取字符串中间-案例1
例如,原文是Download XAPK(2.0 GB)
,想截取为XAPK
使用的regex是:[^Download (]+
截取字符串中间-案例2
例如,原文是Download XAPK(2.0 GB)
,想截取为2.0 GB
使用的regex是:[0-9][\S\s]*[^\)]
正则表达式基础
\s空白符,\S非空白符
$匹配字符串结尾
Web Scraper 选择子元素
nth-of-type结构伪类选择器
选中所有子元素:"selector": "tbody tr"
选中第1个子元素:"selector": "tbody tr:nth-of-type(1)"
选中前600子元素:"selector": "tbody tr:nth-of-type(-n+600)"
再例如:
选中所有奇数号子元素:nth-of-type(2n+1)
选中所有3n+1号子元素:nth-of-type(3n+1)
参考:https://blog.csdn.net/qq_45708377/article/details/125937964