【爬虫】Web Scraper用法汇总

Jouzzy

已于 2023-03-17 22:55:40 修改

阅读量507

点赞数

分类专栏：小技巧技术杂项文章标签：正则表达式

于 2022-07-02 20:52:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39441603/article/details/125577418

版权

小技巧同时被 2 个专栏收录

40 篇文章 1 订阅

订阅专栏

18 篇文章 0 订阅

订阅专栏

Web Scraper正则表达式

正则可视化网址：
https://jex.im/regulex/

正则测试网址：
https://jex.im/regulex/

unicode编码：
https://tools.fun/unicode.html

截取特定字符串后的内容：

例如，原文是下载：5000万+，想截取为5000万+
使用的regex是：[^\u4E0B\u8F7D\：]+
体现在导出的json中是：[^\\u4E0B\\u8F7D\\：]+
原理是：

图片名称

其中\u4E0B是“下”，\u8F7D是“载”。

截取字符串中间-案例1

例如，原文是Download XAPK(2.0 GB)，想截取为XAPK
使用的regex是：[^Download (]+

截取字符串中间-案例2

例如，原文是Download XAPK(2.0 GB)，想截取为2.0 GB
使用的regex是：[0-9][\S\s]*[^\)]

正则表达式基础

\s空白符，\S非空白符
$匹配字符串结尾

Web Scraper 选择子元素

nth-of-type结构伪类选择器

选中所有子元素："selector": "tbody tr"
选中第1个子元素："selector": "tbody tr:nth-of-type(1)"
选中前600子元素："selector": "tbody tr:nth-of-type(-n+600)"
再例如：
选中所有奇数号子元素：nth-of-type(2n+1)
选中所有3n+1号子元素：nth-of-type(3n+1)
在这里插入图片描述

参考：https://blog.csdn.net/qq_45708377/article/details/125937964

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Jouzzy CSDN认证博客专家 CSDN认证企业博客

码龄7年

228: 原创

9万+: 周排名

1万+: 总排名

60万+: 访问

: 等级

2929: 积分

217: 粉丝

379: 获赞

141: 评论

883: 收藏

私信

关注

热门文章

分类专栏

iOS安全 18篇
安卓安全 90篇
技术杂项 18篇
小技巧 40篇
服务器 11篇
Linux 17篇
Python 12篇
C/C++ 9篇
C/C++逆向 5篇
程序分析 10篇
iOS开发 2篇
IDA 2篇
网站 2篇
JavaScript 5篇
安卓开发 10篇
程序性事项 1篇
协议分析 2篇
常识 15篇
Github 7篇
论文笔记 5篇
人工智能 1篇
Pwn 1篇
latex 7篇
Web安全 1篇
密码学 3篇
统计学习 2篇
Java 5篇
VPN

最新评论

【CSDN】查看自己的CSDN积分
邪V风: 听说发15个字的评论能获得一积分，不知道是不是真的，为了一个5积分的资源我来发评论了
【CSDN】查看自己的CSDN积分
zskyyds: 说发15个字的评论能获得一次积分，不知道是不是真的，所以在这里试一下，看看能不能行，这积分真的是太难弄了
【服务器】Dell PowerEdge R750 加装硬盘和内存 | 设置硬盘为直通模式 Non-RAID Disk
tmy_starlight: 博主，问下一下，这边现在有一台R750服务器，使用两块2T固态盘做的raid1，部署了PVE操作系统。现在加装了一块8T机械盘，想作为单独备份盘，但是添加后，在idrc中可以看到这块硬盘，但是pve中搜索不到，这种情况要如何操作，是必须进BOIS系统设置硬盘为直通模式嘛。
【CSDN】查看自己的CSDN积分
qizhebuli: 我看一下，听说发15个字的评论能获得一积分，不知道是不是真的，所以在这里试一下，看看能不能行，听说发15个字的评论能获得一积分，不知道是不是真的，所以在这里试一下，看看能不能行，这积分真的是太难弄了
【外接屏幕】Win10外接屏幕缩放比例异常
FLABT: 试试下面这个链接，应该是外接显示器的分辨率和笔记本的有差别，调整一下外接显示器的缩放比例就可以了。 https://gitcode.csdn.net/65ec3e381a836825ed794c02.html?dp_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6MTExOTc2MywiZXhwIjoxNzI2MTMzNjEyLCJpYXQiOjE3MjU1Mjg4MTIsInVzZXJuYW1lIjoiWmhhb19ib19DU0ROIn0.QgCUABV3UrZw8KqCod7TKfBZgf4zFHttWUOYZVJlejA

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。