正则表达式的学习

最新推荐文章于 2022-06-16 18:25:24 发布

YUE.YUN

最新推荐文章于 2022-06-16 18:25:24 发布

阅读量115

点赞数

本文链接：https://blog.csdn.net/pptde/article/details/111596150

版权

最近在学习爬虫的时候，需要用到正则表达式对数据进行一个提取。

看了网上不少的博客和视频，发现这东西讲解的都不是很通俗易懂，有点绕，尤其是理解元字符部分，文字版本也不是很懂（可能是个人太愚钝）

个人的看法是，不懂的时候多动手，边练边看更容易懂

学习的网址就是：

元字符讲解的博客：
https://www.cnblogs.com/maplethefox/p/11056072.html

菜鸟教程
https://www.runoob.com/python3/python3-reg-expressions.html

练习的网站：
https://regexr-cn.com/
https://regex101.com/

我也是在学习阶段，大家有什么好的建议，欢迎留言

该文章会持续更新

注意：

结尾加上 /g 表示全局查找，如果不加，只匹配第一次出现的位置

加上小括号（），则表示分组，如果有多个组，则可用group(1),group(2)做一个提取

注意 * + ？的区别，不懂就自己看教程，再练习，有点绕口

## 总结
## ^ 表示匹配输入字符串的开始位置。但是，当它们在方括号表达式中使用时，表示不接受该方括号表达式中的字符集合，即补集或相反。如果要匹配^字符本身，必须要用\^。
## $ 表示在字符串的结尾部分搜索相应匹配。
## \b 匹配一个单词（也包括中文字符）的边界，即单词的分界。
## \B 与\b取反。
## \d 匹配任意数字。
## \D 匹配任意非数字字符。
## \s 匹配任何空白字符，包括空格、制表符、换行符等等。
## \S 匹配非空白字符
## \w 匹配全部由字母和数字组成的字符串，即大写、小写字母以及0到9的数字，注意，也包括下划线。
## \W 不包括字母、数字和下划线。
## []字符串的合集
## ()创建组
## . 除换行符外，匹配任何单个字符
## * 匹配0个或者更多
## + 匹配1个或者更多
## \ 将下一个字符标记为特殊字符
## ？ 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个 "o"，而 'o+' 将匹配所有 'o'。
## x? 匹配一个可选的 x 字符 (换言之，它匹配 1 次或者 0 次 x 字符)。
## x* 匹配0次或者多次 x 字符。
## x+ 匹配1次或者多次 x 字符。
## x{n,m} 匹配 x 字符，至少 n 次，至多 m 次。
## (a|b|c) 要么匹配 a，要么匹配 b，要么匹配 c。
## (x) 一般情况下表示一个记忆组 (remembered group)。你可以利用 re.search 函数返回对象的 groups() 函数获取它的值。
## 正则表达式中的点号通常意味着 “匹配任意单字符”