关于正则表达式的一点总结

最新推荐文章于 2022-11-28 13:58:17 发布

qidu1998

最新推荐文章于 2022-11-28 13:58:17 发布

阅读量144

点赞数

分类专栏： python 文章标签： python 正则表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qidu1998/article/details/85057089

版权

python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

python3-正则表达式

说在最前：最近刚学了形式语言，接触正则表达式也有一年半了，在这里做一点总结。
正则表达式目的：

匹配或者搜索特定模式的文本

举一个简单的例子，如果我们要搜索a_c这个字符串(下划线可用任意一个小写的英文字母代替)，我们可以使用正则表达式中的a[a-z]c来查找，这个正则表达式时怎么生成的呢？
第一个字符a会匹配字符串中开头为a的子串，接下来，第二个字符串为**[a-z]，它的意思是第二个字符串只能匹配范围为a-z**，如果符合规则，则继续下一步，否则匹配失败，寻找下一个开头为a的子串。例如此时遇到了ab，接着向后匹配，如果第三个字符为c则匹配成功，寻找下一个以a开头的子串，直到整个字符串匹配完成。
除了**[]**可以表示一个字符的匹配范围，还有别的什么符号我们可以在正则表达式中使用呢？

符号	意义	例子
.	表示任意字符，如果说指定了 DOTALL 的标识，就表示包括新行在内的所有字符。
^	表示字符串开头。
$	表示字符串结尾。	’ test ’ 可以匹配’ test ‘和’ testtool ‘，但’ test$ ‘只能匹配’ test '。
*, +, ?	'‘表示后面可跟 0 个或多个字符，’+‘表示后面可跟 1 个或多个字符，’?‘表示后面可跟 0 个或多个字符 ’ abc ‘可以匹配’ abc ’ 或者’ abcd ‘或者’ abcdefg '等等。
*?, +?, ??	在上面的结果中只去第一个	<> 会匹配’<H1>title</H1>'整个字符串（贪婪匹配），使用 ? 可以只找出 <H1>（非贪婪匹配）
{m}	对于前一个字符重复 m 次 a{6} 匹配 6 个’a’
{m,n}	对于前一个字符重复 m 到 n 次 a{2,4} 匹配 2-4 个 a，a{2,} 匹配 2 个以上 a，a{,4} 匹配 4 个以下 a
{m,n}?	对于前一个字符重复 m 到 n 次，并且取尽可能少的情况在字符串’aaaaaa’中，a{2,4} 会匹配 4 个 a，但 a{2,4}? 只匹配 2 个 a
\	对特殊字符进行转义，或者是指定特殊序列
[]	表示一个字符集	[abc] 会匹配字符 a，b 或者 c，[a-z] 匹配所有小写字母，[a-zA-Z0-9] 匹配所有字母和数字，[^6] 表示除了 6 以外的任意字符
\|	或者，只匹配其中一个表达式	A\|B，如果 A 匹配了，则不再查找 B，反之亦然
( … )	匹配括号中的任意正则表达式
(?#…)	注释，忽略括号内的内容
(?= … )	表达式’…'之前的字符串	在字符串’ pythonretest ‘中 (?=test) 会匹配’ pythonre ’
(?!..)	后面不跟表达式’…‘的字符串如果’ pythonre ‘后面不是字符串’ test ‘，那么 (?!test) 会匹配’ pythonre ’
(?<= … )	跟在表达式’…‘后面的字符串符合括号之后的正则表达式正则表达式’ (?<=abc)def ‘会在’ abcdef ‘中匹配’ def ’
(?<!..)	括号之后的正则表达式不跟在’…'的后面

特殊表达式序列	意义
\A	只在字符串开头进行匹配。
\b	匹配位于开头或者结尾的空字符串
\B	匹配不位于开头或者结尾的空字符串
\d	匹配任意十进制数，相当于 [0-9]
\D	匹配任意非数字字符，相当于 [^0-9]
\s	匹配任意空白字符，相当于 [ \t\n\r\f\v]
\S	匹配任意非空白字符，相当于 [^ \t\n\r\f\v]
\w	匹配任意数字和字母，相当于 [a-zA-Z0-9_]
\W	匹配任意非数字和字母的字符，相当于 [^a-zA-Z0-9_]
\Z	只在字符串结尾进行匹配

这里给出常用的几个正则表达式：常用正则表达式
还有一些其他的：

正则表达式	意义
`<script[^>]>[\s\S]?</script>`	匹配网页中的script
`<.css[^>]>[\s\S]*?</style>`	匹配网页中的css

举一个复杂的例子，在使用python中的爬虫爬去一个网页中的照片时，面对大量的照片，我们如何一下子就能把所有关于图片的url全都筛选出来呢，手动筛选费时费力，这个时候，正则表达式就可以帮助我们解决这个问题。
尝试打开必应壁纸的网页：必应壁纸
注：必应壁纸官方网页已经禁止右键查看源代码以及快捷键启动开发者工具，不过通过chrome浏览器（右上角三个点） -> 更多工具 -> 开发者工具，下载必应壁纸的方法可见我的GitHub：七度1998。
python中关于正则表达式的模块是re，详见python re模块

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于正则表达式的一点总结

python3-正则表达式说在最前：最近刚学了形式语言，接触正则表达式也有一年半了，在这里做一点总结。正则表达式目的：匹配或者搜索特定模式的文本举一个简单的例子，如果我们要搜索a_c这个字符串(下划线可用任意一个小写的英文字母代替)，我们可以使用正则表达式中的a[a-z]c来查找，这个正则表达式时怎么生成的呢？第一个字符a会匹配字符串中开头为a的子串，接下来，第二个字...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。