Python---爬虫---解析---正则表达式(re)

最新推荐文章于 2023-07-04 18:39:17 发布

agsddd

最新推荐文章于 2023-07-04 18:39:17 发布

阅读量263

点赞数 1

分类专栏：爬虫开发爬虫开发历程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41245276/article/details/87643010

版权

爬虫开发同时被 2 个专栏收录

46 篇文章 0 订阅

订阅专栏

爬虫开发历程

20 篇文章 0 订阅

订阅专栏

预定义字符集

\d[0,9],\D取反
\s[空格\r\f\t\n\v](空白字符)，\S取反
\w[A-Za-z0-9_],\W取反

字符

re.findall(".","\n",re.DOTALL(可以匹配换行符)/re.S（DOTALL的缩写）)，在DOTALL模式中 . 可以匹配换行符。
\ 反斜杠转义 , a[a,b,c]z或者| （或者abc|acb|ade）
. 可以匹配除\n外的所有字符

数量词

* 匹配前一个字符0或无限次
+匹配前一个字符1或无限次
？匹配前一个字符0或1次
{m}匹配前一个字符m次

常用的方法

p.match(），从开头找一个，第一个匹配不到，不会匹配
p.search()，任何位置开始找，找一个匹配的后不找
p.findall()找所有
p.sub（替换）
p.compile(编译)，将正则表达式编译为内部格式，从而更快地执行，re.complie(".",re.S（需要把模式放到参数里）)
r 转换为原始字符（\n不代表换行符）
r"a\nbc" 输出为a\\nbc 共5个字符
re.finall(r“a///nb”,"a///nb")

边界匹配

\b ：表示字母数字与非字母数字的边界，非字母数字与字母数字的边界。\B：表示字母数字与(非非)字母数字的边界，非字母数字与非字母数字的边界。

小记

正则表达式匹配所有字符包括换行符\n，. 是匹配除过\n 之外的全部自符，用[\d\D] 匹配所有字符。或者是[\s\S]
正则练习网站

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。