正则表达式的学习

最近在学习爬虫的时候,需要用到正则表达式对数据进行一个提取。

看了网上不少的博客和视频,发现这东西讲解的都不是很通俗易懂,有点绕,尤其是理解元字符部分,文字版本也不是很懂(可能是个人太愚钝)

个人的看法是,不懂的时候多动手,边练边看更容易懂

学习的网址就是:

元字符讲解的博客:
https://www.cnblogs.com/maplethefox/p/11056072.html

菜鸟教程
https://www.runoob.com/python3/python3-reg-expressions.html

练习的网站:
https://regexr-cn.com/
https://regex101.com/

我也是在学习阶段,大家有什么好的建议,欢迎留言

该文章会持续更新

注意:

结尾加上 /g 表示全局查找,如果不加,只匹配第一次出现的位置

加上小括号(),则表示分组,如果有多个组,则可用group(1),group(2)做一个提取

注意 * + ? 的区别,不懂就自己看教程,再练习,有点绕口

## 总结
## ^ 表示匹配输入字符串的开始位置。但是,当它们在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合,即补集或相反。如果要匹配^字符本身,必须要用\^。
## $ 表示在字符串的结尾部分搜索相应匹配。
## \b 匹配一个单词(也包括中文字符)的边界,即单词的分界。
## \B 与\b取反。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## \s 匹配任何空白字符,包括空格、制表符、换行符等等。
## \S 匹配非空白字符
## \w 匹配全部由字母和数字组成的字符串,即大写、小写字母以及0到9的数字,注意,也包括下划线。
## \W 不包括字母、数字和下划线。
## []字符串的合集
## ()创建组
## . 除换行符外,匹配任何单个字符
## * 匹配0个或者更多
## + 匹配1个或者更多
## \ 将下一个字符标记为特殊字符
## ? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。
## x? 匹配一个可选的 x 字符 (换言之,它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符,至少 n 次,至多 m 次。
## (a|b|c) 要么匹配 a,要么匹配 b,要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对象的 groups() 函数获取它的值。
## 正则表达式中的点号通常意味着 “匹配任意单字符”

上述不明白可以参考 老齐教室 公众号和 菜鸟教程 。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值