正则表达式常用匹配

最新推荐文章于 2023-07-04 22:37:08 发布

bo602505401

最新推荐文章于 2023-07-04 22:37:08 发布

阅读量1k

点赞数

分类专栏： Python 文章标签： python 正则表达式

本文链接：https://blog.csdn.net/bo602505401/article/details/61420135

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.常用匹配符号和其意义

(1) . : 匹配任意字符，换行符"\n"除外。

(2) *：匹配前一个字符0次或者无限次。

(3) ?: 匹配前一个字符0次或者无限次。

(4) +：匹配前面的子表达式一次或多次(大于等于1次）

(5) ( ): 括号内数据作为结果返回。

常用组合

(5) . * : 贪心算法，匹配最长符合字符，并返回。

(6) . *? : 非贪心算法，匹配最短符合字符，返回一个数组。

2.python中所用到的匹配方法。

findall : 匹配所有符合规律的内容，返回包含结果的列表。

search : 匹配第一个符合规律的内容并返回。

sub : 替换符合规律的内容，返回替换后的值。

3.例子

#-*-coding:utf8-*-

#导入re库文件
import re
# from re import findall,search,S



#.的使用举例
a = 'xy123'
b = re.findall('x...',a)
print b
#输出 ['xy12']
#解析:...相当于占位符，可以替代任意字符，换行符则不可以

#*的使用举例
a = 'xyxyyy123'
b = re.findall('xy*',a)
print b
#输出 ['xy', 'xyyyy']
#解析：原先以为会输出['xy','xyyy','xyyyy']，但事实结果如上，从这里理解为:* 匹配0次，即为'xy'，
#无限多次即为'xyyyy'，就是一个位置只能匹配一次，而且是往最多处匹配。就像一个胖子一样，他只能在一处
#咬一口，所以他在条件允许内(规则内)，咬了一口最大的，和?刚好相反。

#?的使用举例
a = 'xyxyyy123'
b = re.findall('xy?',a)
print b
#输出 ['xy', 'xy']
#解析:原先以为输出['xy','xy','xyy']，但事实结果如上，这里理解为:？匹配 0次，就有2处，所以结果是
#['xy', 'xy']，匹配1次结果是['xyy'],合并2者，由于'xy'和'xyy'都是一处选取出来的，所以选择最短的匹配。

'''上面的内容全部都是只需要了解即可，需要掌握的只有下面这一种组合方式(.*?)'''

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

# #.*的使用举例
b = re.findall('xx.*xx',secret_code)
print b
#输出 ['xxIxxfasdjifja134xxlovexx23345sdfxxyouxx']
#解析:这是贪心的用法，在规则内，尽可能的选取长度最大的匹配，并且返回字符串。

# # #.*？的使用举例
c = re.findall('xx.*?xx',secret_code)
print c
#输出 ['xxIxx', 'xxlovexx', 'xxyouxx']
#解析:这是非贪心算法，在在规则内，尽可能选取长度最小的匹配，返回结果的列表.
#
# #使用括号与不使用括号的差别
# 这里不举例子了，括号内的字符串就是返回的结果，否则是全部。


#对比findall与search的区别
s2 = 'asdfxxIxx123xxlovexxdfd'
f = re.search('xx(.*?)xx123xx(.*?)xx',s2).group(2)
print f
#输出 love
#解析:search是找寻第一个符合条件的字符串，S2中只有一个字符串符合，group(2)表示
#输出第二个括号的内容

f2 = re.findall('xx(.*?)xx123xx(.*?)xx',s2)
print f2[0][1]
#输出 love
#解析:findall是匹配所有符合规律的内容，返回包含结果的列表，S2中也只有一个字符串符合，所以它创建一个二维数组
#f2[0]存放['I','love'],则f2[0][1]就是'love'

#sub的使用举例
s = '123rrrrr123'
output = re.sub('123(.*?)123','123%d123'%789,s)
print output
#输出 123789123
#解析:将rrrr用789替换了，写法如上，有点像c的写法


#匹配数字，'+'的使用
a = 'asdfasf1234567fasd555fas'
b = re.findall('(\d+)',a)
print b
#输出 ['1234567', '555']
#解析:这里也是往最大长度选取，和*的不同是，它最少有一次匹配。

#最后说一下python的re.S
f3 = re.findall('xx(.*?)xx123xx(.*?)xx',s2,re.S)
#如上，re.S的作用就是'.'可以匹配换行符'\n'，可以回头去看看'.'的定义。