python正则表达式学

最新推荐文章于 2024-07-12 16:16:27 发布

刘嘉鑫

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量688

点赞数

分类专栏： python 文章标签： python 正则表达式脚本语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ljx1044680698/article/details/39710195

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

FBI WARNING:本人新手，高手勿喷。百度上这些资料很多，写它的目的纯粹是为了记录。

一.什么是字符串匹配

字符串匹配的过程其实就是检测某字符串是否满足某格式，比如 " abc " 匹配了 "都是字母" 和 "都是小写字母"两种格式，当然，在实际程序中，这些格式不能用自然的语言表达，所以有了正则表达式来描述这些格式。

二.python正则表达式

开始之前，必然要配置好python的各种环境,我用的是python2.7.6

本文统一用python的search函数作试验

新建py脚本，第一句写上

<pre name="code" class="python">'''python正则表达式学习'''
import re

然后是re.search函数,其作用就是从字符串中寻找匹配的那一部分，并返回

接下来介绍正则表达式的各种通配符，看代码比较实在

1. ^

<pre name="code" class="python">line = 'abcdefg'
searchObj = re.search( '^abc' , line ) #第一个参数为正则表达式，第二个是被搜索的字符串
#^用于检测字符串开头如果字符串的开头匹配，则返回匹配的那部分
print searchObj.group(0) #返回abc，虽然line匹配^abc但只返回匹配的那部分，即abc
searchObj = re.search( '^bc' , line )
print searchObj.group(0) #报错，因为searchObj为空，虽然line字串有'bc'但'^bc'只匹配bc开头的字符串

2. $ 和^相似，用于匹配字符串末尾,正则表达式写法，如 'fg$' 匹配上面的line

以下省略re.search,print等语句，仅写出正则表达式和匹配结果，没有特殊声明时，被匹配的字符串为line

3. . 用于代表除换行符外所有的字符

line = 'abcdefg'

'.cd' --->匹配line中的bcd，只会返回bcd

‘.ab’ ---->不匹配，因为line中的ab前面已经没有字符了，.不能代表空字符

'$...' ---->匹配line中的abc(3个点就是3个字符)，返回abc

4. [ ] 用于代表一个字符，如[abc]代表a或b或c，但只能代表其中一个字符(而不是字符串)

‘[abc]’ --->含a或b或c的字符串匹配，seachObj找到第一个匹配的字符串后就会返回，故line中匹配的有a,b,c,但只---->返回a

‘^[abc]’ ---->a,b,c开头的字符串都匹配，故匹配，且还是返回a

5. [^ ] 也是代表一个字符，但与上面相反，代表不在中括号里的其它字符

'[^abc]' ---->含有非a，b，c的字符就可以匹配,故还是匹配，返回第一个非a，b，c的字符d

‘^[^abc]’ ----->a，b，c开头的字符串都不匹配，故不匹配

6. re */+/? --->re代表一个字符或者带括号的正则表达式 *代表0或连续多个匹配re，+代表1或连续多个匹配re，？代表0或1个匹配re,这里涉及到一个贪婪的问题，一并讨论了

用于匹配的字符串 'cbcbaaababb'

这三个符号仅表示该符号前一个字符的数量，如

'ct*' ------>匹配，c是匹配的，t不匹配，但是*代表0个也是匹配的，故返回c

'cb+' ---->匹配,但返回的是cb，而不是cbcb，因为+代表的不是cb的数量，而是b的数量(1个或连续多个)

想返回cbcb，可以加括号:

‘(cb)+’ ---->匹配，此时cb被当成一个整体，+代表着cb的数量

但是很奇怪，+代表的是含有1个或连续多个，那么按理说cb和cbcb都是匹配的，那么python选择谁作返回呢？

答案是cbcb，python选择最长的返回，这就是所谓的贪婪，如：

‘a*’ ---->匹配，没有a或a，aa，aaa均匹配，但是python选择了最长的aaa

这三个里面*和+有贪婪的特性，?是没有的：

'a?' ----->0个或1个a都匹配，但返回的是0个a

为了避免*和+的贪婪,可以选择使用*?和+?,python将会选取*或+的最短的匹配返回:

'a*?' ---->匹配，返回空串

'a+?' ----->匹配，返回1个a

7. re {m}/{m,}/{m,n} 连续m次/m次或m以上次/m-n次匹配re，这里也有贪婪的问题

用于匹配的字符串 'cbcbaaababb'

‘cb{2}’ ---->不匹配，应该匹配的是cbb

'(cb){2}' ----->匹配，匹配cbcb

'a{1,}' ----->匹配，a，aa，aaa都匹配，贪婪模式选择了aaa返回

'a{1,}?' ------>匹配，抑制贪婪，返回a

‘a{1,2}’ ----->匹配，a,aa都匹配，由于贪婪，返回aa

'a{1,2}?' ----->匹配,抑制贪婪，返回a

8. | 类似[ ]

9. \w 和 \W

\w 代表a-z，A-Z，0-9，以及下划线

\W 代表非\w指代的字符(包括换行符等空白字符)

'a\wb' --->可以匹配abc，adc，a_c等

'a\Wb' --->可以匹配a c，a!c等

这里有一个需要注意的特例，也是笔者认为奇怪的地方(python2.7.6):

<1>被匹配的字符串'abc!!!'

'(\w)*' ----->可以匹配,返回'abc'

'(\W)*' ---->也可以匹配,却返回空字符串!(若不是以非单词符号开头，则匹配空字符串，因为*也可以表示0个)

<2>被匹配的字符串换成'!!!abc'

'(\w)*' ------>可以匹配，却返回空字符串(理解成若不是以单词符号开头，则匹配空字符串，因为*也可以表示0个)

'(\W)*' ------>可以匹配,返回'!!!'

根据<1>和<2>发现，‘(\w)*’和'(\W)*' 匹配字符串的规律如上面红色字体所注，而'(\w)+'就不会出现奇怪的现象,因为'+'至少为1

待更新....

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python正则表达式学

FBI WARNING:本人新手，高手勿喷。1.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。