python正则表达式

大小瓶

已于 2024-03-07 09:56:31 修改

阅读量272

点赞数

分类专栏：其他文章标签：正则表达式 python

于 2020-06-11 20:22:57 首次发布

本文链接：https://blog.csdn.net/qq_43655307/article/details/106671251

版权

其他专栏收录该内容

29 篇文章 2 订阅

订阅专栏

正则在线查询是否正确以及查询步骤

https://regex101.com/

字符串前加r,防止转义

string = 'aaAAA\d123'
print(re.findall('\d',string))   #['1', '2', '3']
print(re.findall('\\d',string))  #['1', '2', '3']
print(re.findall(r'\d',string))  #['1', '2', '3']
print(re.findall(r'\\d',string)) #['\\d']

贪婪和非贪婪模式

默认为贪婪模式:在满足第二组规则的前提下,满足第一组的最大长度的字符

string = 'aaaabbbb'
res = re.match('(a*b*)(b*)',string)
print(res.groups())  #('aaaabbbb', '')

非贪婪模式(结尾加?表示非贪婪模式):在满足第二组规则的前提下,满足第一组的最小长度的字符

string = 'aaaabbbb'
res = re.match('(a*b*?)(b*)',string)
print(res.groups())  #('aaaa', 'bbbb')

特殊字符匹配

对于.*+?等特殊符号的匹配可以使用转义符’\.‘或’[.]’

符号    功能
.       匹配任意1个字符(除了\n)
[]      用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^]	    不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
\d      匹配数字,也就是0-9
\D      匹配非数字,也就是匹配不是数字的字符
\s      匹配空白符,也就是 空格\tab
\S      匹配非空白符,\s取反
\w      匹配单词字符, a-z, A-Z, 0-9, _
\W      匹配非单词字符, \w取反
\        转义符

字符数量

符号    功能
*       匹配前一个字符出现0次多次或者无限次,可有可无,可多可少
+       匹配前一个字符出现1次多次或则无限次,直到出现一次
?       匹配前一个字符出现1次或者0次,要么有1次,要么没有
{m}     匹配前一个字符出现m次
{m,}    匹配前一个字符至少出现m次
{m,n}   匹配前一个字符出现m到n次

字符串边界

符号    功能
^       匹配字符串开头   ^a:以a开头
$       匹配字符串结尾   b$:以b结尾
\b      匹配一个单词的边界
\B      匹配非单词边界

分组

符号       功能
|           匹配左右任意一个表达式  
(ab)        将括号中字符作为一个分组
\num        引用分组num匹配到的字符串 num为0/1/2..即分组的第几部分
(?P<name>)  分组起别名(原有分组有名字)
(?P=name)   引用别名为name分组匹配到的字符串

例如:
	‘ I have a dog’ 或 ’I have a cat’ ，需要写成 r’I have a (?:dog|cat)’ ，而不能写成 r’I have a dog|cat’

括号内容

括号中 ’…’ 代表你希望匹配的字符串的前面应该出现的字符串。

(...)	      对正则表达式分组并记住匹配的文本
(?:...)	      类似 (...), 但是不表示一个组
(?imx:...)	  正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx:...)	  正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?#...)	      注释
(?<=…)        前向界定，不表示一个组
(?=...)	      为某字符串，不表示一个组
(?!...)	      后向否定，不为某字符串，不表示一个组
(?<!...)	  前向否定，不为某字符串，不表示一个组（只能处理定长字符）
(?> re)	      匹配的独立模式，省去回溯。

例如:
	s='/# comment 1 #/  code  /# comment 2 #/'
	res = re.findall('(?<=/#).+?(?=#/)' , s)
	print(res)                                     #[' comment 1 ', ' comment 2 ']

匹配不包含某字符串的字符串

text = '13245'

#非2或者3的字符(单个字符,没有顺序关系)
patt = '1([^23]*?)5'    
print(re.findall(patt,text))    #[]

#非23的字符串(字符串)
patt = '1((?!.*?23.*?).*?)5'  
print(re.findall(patt,text))    #['324']


#提取12和34
s = '二是12包含(?P<e0>.+?)的需求34工作(?P<n1>.{7}?)'
res = re.finditer('(?:P<.\d+)|(?:\.{\d+})|(\d+)',s)
# res = re.sub('(?:P<.\d+)|(\d+)','(?:\d+)',s)
index = []
for i in res:
    if i.groups()[0]:
        print(i.group()) #12   34

分组命名

'''
	(?P<name>)  分组起别名(原有分组有名字)
	(?P=name)   引用别名为name分组匹配到的字符串
'''
text = 'This is some text -- with --  punctuation.'

pattern = '(?P<first_word>\w+).*?(?P<flag>--).*?(?P=flag)'

res = re.search(pattern,text)

print(res.group('flag'))
print(res.groupdict())

交换字符串位置

s = 'abc#xyz'
print(re.sub(r'(.*)#(.*)', r'\2+\1', s))

函数功能

re.compile()用于将字符串形式的正则表达式编译为Pattern对象

无需要时也可直接用字符串表示规则

import re
# re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同）
# re.M(MULTILINE): 多行模式，改变'^'和'$'变为每一行的开头结尾
# re.S(DOTALL): 点任意匹配模式，可以解决文本多行匹配问题
# re.L(LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
# re.U(UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
# re.X(VERBOSE): 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。

string = 'aaAAA'
print(re.findall('a*',string))           #['aa', '', '', '', '']
pattern = re.compile('a*',re.I)
print(re.findall(pattern,string))       #['aaAAA', '']

pattern= re.compile('a*',re.I)
pattern= re.compile(r '\d +  # the integral part
               						\.    # the decimal point
               						\d *  # some fractional digits', re.X)

re.escape()批量进行特殊字符转义

pattern_str = '.*?'
safe_pattern_str = re.escape(pattern_str)
print(safe_pattern_str)                                   #\.\*\?

re.match()一次匹配的结果（从字符串开始匹配，开始位置匹配不到就返回None）

string = 'aa1d123'
res = re.match('(.*)(?P<数字>\d+)([a-z]+)',string)

# 属性
print(res.string)       # 匹配时使用的文本。               aa1d123
print(res.re)           # 匹配时使用的Pattern对象          re.compile('(.*)(?P<数字>\\d+)([a-z]+)')
print(res.pos)          # 文本中正则表达式开始搜索的索引      0
print(res.endpos)       # 文本中正则表达式结束搜索的索引      7
print(res.lastindex)    # 分组数量                          3
print(res.lastgroup)    # 最后一个被捕获的分组的别名         None

# 方法
#获得分组截获的字符串；可以使用编号也可以使用别名；0代表整个匹配的子串；默认group(0)
print(res.group(1,2,3))            #('aa', '1', 'd')
#相当于调用group(1,2,…last)
print(res.groups())                #('aa', '1', 'd')
#返回以有别名的组的别名为键、以该组截获的子串为值的字典
print(res.groupdict())             #{'数字': '1'}
#返回指定的组截获的子串在string中的起始索引。group默认值为0。
print(res.start(2))                #2,'1'的索引为2
#返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。
print(res.end(2))                  #3,'1'的结束索引为2，2+1=3
#返回(start(group), end(group))。
print(res.span(2))                 #(2, 3)

re.search()查找字符串中可以匹配成功的子串（依次从字符串的所有位置匹配直到成功,匹配不到返回Neno）

相当于从第一个字符开始依次向后re.match

match到第一组后停止,相当于re.finditer()[0]

string = 'aa1d123'
# 若用re.match则返回None
res = re.search('(?P<数字>\d+)([a-z]+)',string)
# 属性
print(res.string)       # 匹配时使用的文本。               aa1d123
print(res.re)           # 匹配时使用的Pattern对象          re.compile('(?P<数字>\\d+)([a-z]+)')
print(res.pos)          # 文本中正则表达式开始搜索的索引      0
print(res.endpos)       # 文本中正则表达式结束搜索的索引      7
print(res.lastindex)    # 分组数量                          2
print(res.lastgroup)    # 最后一个被捕获的分组的别名         None

# 方法

#获得分组截获的字符串；可以使用编号也可以使用别名；0代表整个匹配的子串；默认group(0)
print(res.group(1,2))                #('1', 'd')
#相当于调用group(1,2,…last)
print(res.groups())                  #('1', 'd')
#返回以有别名的组的别名为键、以该组截获的子串为值的字典
print(res.groupdict())               #{'数字': '1'}
#返回指定的组截获的子串在string中的起始索引。group默认值为0。
print(res.start(2))                  #3,'d'的索引为3
#返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。
print(res.end(2))                    #4,'d'的结束索引为3，3+1=4
#返回(start(group), end(group))。
print(res.span(2))                 #(3, 4)

re.findall()以列表形式返回全部能匹配的子串

string = 'aa1d123'
res = re.findall('(?P<数字>\d+)([a-z]?)',string)
print(res)  #[('1', 'd'), ('123', '')]

re.finditer()搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。

string = 'aa1d123'
res = re.finditer('(?P<数字>\d+)([a-z]?)',string)
for i in res:
    print(i.groups())
'''
('1', 'd')
('123', '')
'''

re.split()字符串分割,以列表形式返回分割结果

string = 'a,a,1?d?123'
#以,或者?为分隔符,最多分割3次
#默认全部分割
res = re.split(',|[?]',string,maxsplit=3)
print(res)    #['a', 'a', '', '?d?123']

#保留分隔符,需要加入()
string = 'a,a'
#res = re.split(r"(,|\?)", string)
res = re.split(r"([,?])", string) 
print(res)  #['a', ',', 'a']
res.append("")
res = ["".join(i) for i in zip(res[0::2], res[1::2])]
print(res)  # ['a,', 'a']

re.sub()，re.subn()字符替换,返回替换后的字符串

#只替换规则的某一部分
string1 = '4:4'
string2 = 'd:d'
res1 = re.sub(r"(\d)(:)(\d)", r"\1@\3", string1)
res2 = re.sub(r"(\d)(:)(\d)", r"\1@\3", string2)
print(res1)  # 4@4
print(res2)  # d:d

string = 'a,a,1?d?123'
#用'b'替换','或者'?',最多替换3次
#默认全部替换
res = re.sub(',|[?]','b',string,3)
print(res)  #abab1bd?123

#返回替换后的字符串以及替换次数
res = re.subn(',', 'b', string, 3)
print(res)  # ('abab1?d?123', 2)

大小瓶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python正则表达式

特殊字符匹配对于.*+?等特殊符号的匹配可以使用转义符’.‘或’[.]’符号功能. 匹配任意1个字符(除了\n)[] 匹配[]中列举的字符\d 匹配数字,也就是0-9\D 匹配非数字,也就是匹配不是数字的字符\s 匹配空白符,也就是空格\tab\S 匹配非空白符,\s取反\w 陪陪单词字符, a-z, A-Z, 0-9, _\W 匹配非单词字符, \w取反\ 转义符字符数量符
复制链接

扫一扫