Python正则表达式

最新推荐文章于 2022-11-11 15:44:42 发布

JieFeiLau

最新推荐文章于 2022-11-11 15:44:42 发布

阅读量1.1k

点赞数 2

分类专栏： Python 文章标签：正则表达式

本文链接：https://blog.csdn.net/u014028063/article/details/80656971

版权

Python 专栏收录该内容

29 篇文章 1 订阅

订阅专栏

一，什么是正则表达式

正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

二，正则表达式语法

在正则表达式中，如果直接给出字符，就是精确匹配。

　　1.1 字符与字符类
　　　　1 特殊字符：\.^$?+*{}[]()|
　　　　　　以上特殊字符要想使用字面值，必须使用\进行转义
　　　　2 字符类
　　　　　 1. 包含在[]中的一个或者多个字符被称为字符类，字符类在匹配时如果没有指定量词则只会匹配其中的一个。
　　　　　　2. 字符类内可以指定范围，比如[a-zA-Z0-9]表示a到z，A到Z，0到9之间的任何一个字符
　　　　　　3. 左方括号后跟随一个^，表示否定一个字符类，比如[^0-9]表示可以匹配一个任意非数字的字符。
　　　　　　4. 字符类内部，除了\之外，其他特殊字符不再具备特殊意义，都表示字面值。^放在第一个位置表示否定，放在其他位置表示^本身，-放在中间表示范围，放在字符类中的第一个字符，则表示-本身。

　　　　　　5. 字符类内部可以使用速记法，比如\d \s \w

[0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线；
[0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如'a100'，'0_Z'，'Py3000'等等；
[a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串，也就是Python合法的变量；
[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）。

　　　　3 速记法
　　　　　　. 可以匹配除换行符之外的任何字符，如果有re.DOTALL标志，则匹配任意字符包括换行
　　　　　　\d 匹配一个Unicode数字，如果带re.ASCII，则匹配0-9
　　　　　　\D 匹配Unicode非数字
　　　　　　\s 匹配Unicode空白，如果带有re.ASCII，则匹配\t\n\r\f\v中的一个
　　　　　　\S 匹配Unicode非空白
　　　　　　\w 匹配Unicode单词字符，如果带有re.ascii,则匹配[a-zA-Z0-9_]中的一个
　　　　　　\W 匹配Unicode非单子字符

　　1.2 量词
　　　　1. ? 匹配前面的字符0次或1次
　　　　2. * 匹配前面的字符0次或多次
　　　　3. + 匹配前面的字符1次或者多次
　　　　4. {m} 匹配前面表达式m次
　　　　5. {m,} 匹配前面表达式至少m次
　　　　6. {,n} 匹配前面的正则表达式最多n次
　　　　7. {m,n} 匹配前面的正则表达式至少m次，最多n次
　　　　注意点：
　　　　　　以上量词都是贪婪模式，会尽可能多的匹配，如果要改为非贪婪模式，通过在量词后面跟随一个?来实现

　　1.3 组与捕获
　　　　1 ()的作用：
　　　　　　1. 捕获()中正则表达式的内容以备进一步利用处理，可以通过在左括号后面跟随?:来关闭这个括号的捕获功能
　　　　　　2. 将正则表达式的一部分内容进行组合，以便使用量词或者|
　　　　2 反响引用前面()内捕获的内容：
　　　　　　1. 通过组号反向引用
　　　　　　　　每一个没有使用?:的小括号都会分配一个组好，从1开始，从左到右递增，可以通过\i引用前面()内表达式捕获的内容
　　　　　　2. 通过组名反向引用前面小括号内捕获的内容
　　　　　　　　可以通过在左括号后面跟随?P<name>,尖括号中放入组名来为一个组起一个别名，后面通过(?P=name)来引用前面捕获的内容。如(? P<word>\w+)\s+(?P=word)来匹配重复的单词。
　　　　3 注意点：
　　　　　　反向引用不能放在字符类[]中使用。

　　 1.4 断言与标记
　　　　断言不会匹配任何文本，只是对断言所在的文本施加某些约束
　　　　1 常用断言：
　　　　　　1. \b 匹配单词的边界，放在字符类[]中则表示backspace
　　　　　　2. \B 匹配非单词边界，受ASCII标记影响
　　　　　　3. \A 在起始处匹配
　　　　　　4. ^ 在起始处匹配，如果有MULTILINE标志，则在每个换行符后匹配
　　　　　　5. \Z 在结尾处匹配
　　　　　　6. $ 在结尾处匹配，如果有MULTILINE标志，则在每个换行符前匹配$表示行的结束，\d$表示必须以数字结束。你可能注意到了，py也可以匹配'python'，但是加上^py$就变成了整行匹配，就只能匹配'py'了。

　　　　　　7. (?=e) 正前瞻
　　　　　　8. (?!e) 负前瞻
　　　　　　9. (?<=e) 正回顾
　　　　　　10.(?<!e) 负回顾
　　　　2 前瞻回顾的解释
　　　　　　前瞻： exp1(?=exp2) exp1后面的内容要匹配exp2
　　　　　　负前瞻: exp1(?!exp2) exp1后面的内容不能匹配exp2
　　　　　　后顾: (?<=exp2)exp1 exp1前面的内容要匹配exp2
　　　　　　负后顾: (?<!exp2)exp1 exp1前面的内容不能匹配exp2
　　　　　　例如：我们要查找hello，但是hello后面必须是world，正则表达式可以这样写："(hello)\s+(?=world)",用来匹配"hello wangxing"和"hello world"只能匹配到后者的hello

　　1.5 条件匹配
　　　　(?(id)yes_exp|no_exp):对应id的子表达式如果匹配到内容，则这里匹配yes_exp，否则匹配no_exp

　　1.6 正则表达式的标志
　　　　1. 正则表达式的标志有两种使用方法
　　　　　　1. 通过给compile方法传入标志参数，多个标志使用|分割的方法,如re.compile(r"#[\da-f]{6}\b", re.IGNORECASE|re.MULTILINE)
　　　　　　2. 通过在正则表达式前面添加(?标志)的方法给正则表达式添加标志，如(?ms)#[\da-z]{6}\b
　　　　2. 常用的标志
　　　　　　re.A或者re.ASCII，使\b \B \s \S \w \W \d \D都假定字符串为假定字符串为ASCII
　　　　　　re.I或者re.IGNORECASE 使正则表达式忽略大小写
　　　　　　re.M或者re.MULTILINE 多行匹配，使每个^在每个回车后，每个$在每个回车前匹配
　　　　　　re.S或者re.DOTALL 使.能匹配任意字符，包括回车
　　　　　　re.X或者re.VERBOSE 这样可以在正则表达式跨越多行，也可以添加注释，但是空白需要使用\s或者[ ]来表示，因为默认的空白不再解释。如：
　　　　　　　　re.compile(r"""
　　　　　　　　　　<img\s +) #标签的开始
　　　　　　　　　　[^>]*? #不是src的属性
　　　　　　　　　　src= #src属性的开始
　　　　　　　　　　(?:
　　　　　　　　　　(?P<quote>["']) #左引号
　　　　　　　　　　(?P<image_name>[^\1>]+?) #图片名字
　　　　　　　　　　(?P=quote) #右括号
　　　　　　　　　　""",re.VERBOSE|re.IGNORECASE)

三，re模块

有了准备知识，我们就可以在Python中使用正则表达式了。Python提供re模块，包含所有正则表达式的功能。由于Python的字符串本身也用\转义，所以要特别注意：

s = 'ABC\\-001' # Python的字符串
# 对应的正则表达式字符串变成：
# 'ABC\-001'

因此我们强烈建议使用Python的r前缀，就不用考虑转义的问题了：

s = r'ABC\-001' # Python的字符串
# 对应的正则表达式字符串不变：
# 'ABC\-001'

先看看如何判断正则表达式是否匹配：

>>> import re
>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
<_sre.SRE_Match object at 0x1026e18b8>
>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345')
>>>

正则表达式处理字符串主要有四大功能　　　　1. 匹配查看一个字符串是否符合正则表达式的语法，一般返回true或者false 　　　　2. 获取正则表达式来提取字符串中符合要求的文本　　　　3. 替换查找字符串中符合正则表达式的文本，并用相应的字符串替换　　　　4. 分割使用正则表达式对字符串进行分割。

1、match(pattern, string, flags=0)

从起始位置开始根据模型去字符串中匹配指定内容，匹配单个,如果匹配成功，返回一个Match对象，否则返回None。

要匹配的字符串
正则表达式
标志位，用于控制正则表达式的匹配方式

import re

obj = re.match('\d+', '123uuasf')
if obj:
    print obj.group()

 
     
   
# flags
I = IGNORECASE = sre_compile.SRE_FLAG_IGNORECASE # ignore case
L = LOCALE = sre_compile.SRE_FLAG_LOCALE # assume current 8-bit locale
U = UNICODE = sre_compile.SRE_FLAG_UNICODE # assume unicode locale
M = MULTILINE = sre_compile.SRE_FLAG_MULTILINE # make anchors look for newline
S = DOTALL = sre_compile.SRE_FLAG_DOTALL # make dot match newline
X = VERBOSE = sre_compile.SRE_FLAG_VERBOSE # ignore whitespace and comments

常见的判断方法就是：

test = '用户输入的字符串' if re.match(r'正则表达式', test): print 'ok' else: print 'failed'

Match

Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以使用Match提供的可读属性或方法来获取这些信息。

属性：

string: 匹配时使用的文本。
re: 匹配时使用的Pattern对象。
pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None。
lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。

方法：

group([group1, …]):
获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。
groups([default]):
以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。
groupdict([default]):
返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。
start([group]):
返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。
end([group]):
返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。
span([group]):
返回(start(group), end(group))。
expand(template):
将匹配到的分组代入template中然后返回。template中可以使用\id或\g<id>、\g<name>引用分组，但不能使用编号0。\id与\g<id>是等价的；但\10将被认为是第10个分组，如果你想表达\1之后是字符'0'，只能使用\g<1>0。

 
         import  
         re 
        
         m  
         =  
         re.match(r 
         '(\w+) (\w+)(?P<sign>.*)' 
         ,  
         'hello world!' 
         ) 
        
         print  
         "m.string:" 
         , m.string 
        
         print  
         "m.re:" 
         , m.re 
        
         print  
         "m.pos:" 
         , m.pos 
        
         print  
         "m.endpos:" 
         , m.endpos 
        
         print  
         "m.lastindex:" 
         , m.lastindex 
        
         print  
         "m.lastgroup:" 
         , m.lastgroup 
        
         print  
         "m.group(1,2):" 
         , m.group( 
         1 
         ,  
         2 
         ) 
        
         print  
         "m.groups():" 
         , m.groups() 
        
         print  
         "m.groupdict():" 
         , m.groupdict() 
        
         print  
         "m.start(2):" 
         , m.start( 
         2 
         ) 
        
         print  
         "m.end(2):" 
         , m.end( 
         2 
         ) 
        
         print  
         "m.span(2):" 
         , m.span( 
         2 
         ) 
        
         print  
         r 
         "m.expand(r'\2 \1\3'):" 
         , m.expand(r 
         '\2 \1\3' 
         ) 
        
         ### output ### 
        
         # m.string: hello world! 
        
         # m.re: <_sre.SRE_Pattern object at 0x016E1A38> 
        
         # m.pos: 0 
        
         # m.endpos: 12 
        
         # m.lastindex: 3 
        
         # m.lastgroup: sign 
        
         # m.group(1,2): ('hello', 'world') 
        
         # m.groups(): ('hello', 'world', '!') 
        
         # m.groupdict(): {'sign': '!'} 
        
         # m.start(2): 6 
        
         # m.end(2): 11 
        
         # m.span(2): (6, 11) 
        
         # m.expand(r'\2 \1\3'): world hello!

2、切分字符串

split(pattern, string, maxsplit=0, flags=0)

根据指定匹配进行分组

maxsplit用于指定最大分割次数，不指定将全部分割。

content = "'1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )'"
new_content = re.split('\*', content)
# new_content = re.split('\*', content, 1)
print new_content

content = "'1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )'"
new_content = re.split('[\+\-\*\/]+', content)
# new_content = re.split('\*', content, 1)
print new_content

inpp = '1-2*((60-30 +(-40-5)*(9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2))'
inpp = re.sub('\s*','',inpp)
new_content = re.split('\(([\+\-\*\/]?\d+[\+\-\*\/]?\d+){1}\)', inpp, 1)
print new_content

用正则表达式切分字符串比用固定的字符更灵活，请看正常的切分代码：

>>> 'a b   c'.split(' ')
['a', 'b', '', '', 'c']

嗯，无法识别连续的空格，用正则表达式试试：

>>> re.split(r'\s+', 'a b   c')
['a', 'b', 'c']

无论多少个空格都可以正常分割。加入,试试：

>>> re.split(r'[\s\,]+', 'a,b, c  d')
['a', 'b', 'c', 'd']

再加入;试试：

>>> re.split(r'[\s\,\;]+', 'a,b;; c  d')
['a', 'b', 'c', 'd']

如果用户输入了一组标签，下次记得用正则表达式来把不规范的输入转化成正确的数组。

3分组

除了简单地判断是否匹配之外，正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组（Group）。比如：

^(\d{3})-(\d{3,8})$分别定义了两个组，可以直接从匹配的字符串中提取出区号和本地号码：

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
>>> m
<_sre.SRE_Match object at 0x1026fb3e8>
>>> m.group(0)
'010-12345'
>>> m.group(1)
'010'
>>> m.group(2)
'12345'

如果正则表达式中定义了组，就可以在Match对象上用group()方法提取出子串来。

注意到group(0)永远是原始字符串，group(1)、group(2)……表示第1、2、……个子串。

提取子串非常有用。来看一个更凶残的例子：

>>> t = '19:05:30'
>>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
>>> m.groups()
('19', '05', '30')

这个正则表达式可以直接识别合法的时间。但是有些时候，用正则表达式也无法做到完全验证，比如识别日期：

'^(0[1-9]|1[0-2]|[0-9])-(0[1-9]|1[0-9]|2[0-9]|3[0-1]|[0-9])$'

对于'2-30'，'4-31'这样的非法日期，用正则还是识别不了，或者说写出来非常困难，这时就需要程序配合识别了。

4、search()

格式：

re.search(pattern, string, flags=0)

re.search函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回，如果字符串没有匹配，则返回None。

print(re.search('\dcom','www.4comrunoob.5com').group())
执行结果如下：
4com

*注：match和search一旦匹配成功，就是一个match object对象，而match object对象有以下方法：

group() 返回被 RE 匹配的字符串
start() 返回匹配开始的位置
end() 返回匹配结束的位置
span() 返回一个元组包含匹配 (开始,结束) 的位置
group() 返回re整体匹配的字符串，可以一次输入多个组号，对应组号匹配的字符串。

a. group（）返回re整体匹配的字符串，
b. group (n,m) 返回组号为n，m所匹配的字符串，如果组号不存在，则返回indexError异常
c.groups（）groups() 方法返回一个包含正则表达式中所有小组字符串的元组，从 1 到所含的小组号，通常groups()不需要参数，返回一个元组，元组中的元就是正则表达式中定义的组。

import re
a = "123abc456"
 print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0))   #123abc456,返回整体
 print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1))   #123
 print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2))   #abc
 print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3))   #456
###group(1) 列出第一个括号匹配部分，group(2) 列出第二个括号匹配部分，group(3) 列出第三个括号匹配部分。###

5、findall()

re.findall遍历匹配，可以获取字符串中所有匹配的字符串，返回一个列表。

格式：

re.findall(pattern, string, flags=0)

p = re.compile(r'\d+')
print(p.findall('o1n2m3k4'))
执行结果如下：
['1', '2', '3', '4']

import re
tt = "Tina is a good girl, she is cool, clever, and so on..."
rr = re.compile(r'\w*oo\w*')
print(rr.findall(tt))
print(re.findall(r'(\w)*oo(\w)',tt))#()表示子表达式 
执行结果如下：
['good', 'cool']
[('g', 'd'), ('c', 'l')]

6、finditer()

搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。找到 RE 匹配的所有子串，并把它们作为一个迭代器返回。

格式：

re.finditer(pattern, string, flags=0)

iter = re.finditer(r'\d+','12 drumm44ers drumming, 11 ... 10 ...')
for i in iter:
    print(i)
    print(i.group())
    print(i.span())
执行结果如下：
<_sre.SRE_Match object; span=(0, 2), match='12'>
12
(0, 2)
<_sre.SRE_Match object; span=(8, 10), match='44'>
44
(8, 10)
<_sre.SRE_Match object; span=(24, 26), match='11'>
11
(24, 26)
<_sre.SRE_Match object; span=(31, 33), match='10'>
10
(31, 33)

7sub()

使用re替换string中每一个匹配的子串后返回替换后的字符串。

格式：re.sub(pattern, repl, string, count)

import re
text = "JGood is a handsome boy, he is cool, clever, and so on..."
print(re.sub(r'\s+', '-', text))
执行结果如下：
JGood-is-a-handsome-boy,-he-is-cool,-clever,-and-so-on...

其中第二个函数是替换后的字符串；本例中为'-'

第四个参数指替换个数。默认为0，表示每个匹配项都替换。

re.sub还允许使用函数对匹配项的替换进行复杂的处理。

如：re.sub(r'\s', lambda m: '[' + m.group(0) + ']', text, 0)；将字符串中的空格' '替换为'[ ]'。

import re
text = "JGood is a handsome boy, he is cool, clever, and so on..."
print(re.sub(r'\s+', lambda m:'['+m.group(0)+']', text,0))
执行结果如下：
JGood[ ]is[ ]a[ ]handsome[ ]boy,[ ]he[ ]is[ ]cool,[ ]clever,[ ]and[ ]so[ ]on...

8、subn()

返回替换次数

格式：subn(pattern, repl, string, count=0, flags=0)

print(re.subn('[1-2]','A','123456abcdef'))
print(re.sub("g.t","have",'I get A,  I got B ,I gut C'))
print(re.subn("g.t","have",'I get A,  I got B ,I gut C'))
执行结果如下：
('AA3456abcdef', 2)
I have A,  I have B ,I have C
('I have A,  I have B ,I have C', 3)

四，建议先编译，然后匹配

3 4

当我们在Python中使用正则表达式时，re模块内部会干两件事情：
编译正则表达式，如果正则表达式的字符串本身不合法，会报错；
用编译后的正则表达式去匹配字符串。
 
          import  
          re  
          #导入模块名 
         
 
          p  
          =  
          re. 
          compile 
          ( 
          "^[0-9]" 
          )   
          #生成要匹配的正则对象 ， ^代表从开头匹配，[0-9]代表匹配0至9的任意一个数字， 所以这里的意思是对传进来的字符串进行匹配，如果这个字符串的开头第一个字符是数字，就代表匹配上了 
         
 
          m  
          =  
          p.match( 
          '14534Abc' 
          )    
          #按上面生成的正则对象 去匹配 字符串， 如果能匹配成功，这个m就会有值， 否则m为None<br><br>if m: #不为空代表匹配上了 
         
 
          　　 
          print 
          (m.group())　　　　 
          #m.group()返回匹配上的结果，此处为1，因为匹配上的是1这个字符<br>else:<br>　　print("doesn't match.")<br> 
         

上面的第2 和第3行也可以合并成一行来写：

效果是一样的，区别在于，第一种方式是提前对要匹配的格式进行了编译（对匹配公式进行解析），这样再去匹配的时候就不用在编译匹配的格式，第2种简写是每次匹配的时候都要进行一次匹配公式的编译，所以，如果你需要从一个5w行的文件中匹配出所有以数字开头的行，建议先把正则公式进行编译再匹配，这样速度会快点。

>>> import re
# 编译:
>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 使用：
>>> re_telephone.match('010-12345').groups()
('010', '12345')
>>> re_telephone.match('010-8086').groups()
('010', '8086')

编译后生成Regular Expression对象，由于该对象自己包含了正则表达式，所以调用对应的方法时不用给出正则字符串。

匹配格式

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}
re{ n,}	精确匹配n个前面表达式。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\| b	匹配a或b
(re)	G匹配括号内的表达式，也表示一个组
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (...), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#...)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功
(?> re)	匹配的独立模式，省去回溯。
\w	匹配字母数字
\W	匹配非字母数字
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9].
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。c
\z	匹配字符串结束
\G	匹配最后匹配完成的位置。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t, 等.	匹配一个换行符。匹配一个制表符。等
\1...\9	匹配第n个分组的子表达式。
\10	匹配第n个分组的子表达式，如果它经匹配。否则指的是八进制字符码的表达式。

正则表达式实例

字符匹配

实例	描述
python	匹配 "python".

字符类

实例	描述
[Pp]ython	匹配 "Python" 或 "python"
rub[ye]	匹配 "ruby" 或 "rube"
[aeiou]	匹配中括号内的任意一个字母
[0-9]	匹配任何数字。类似于 [0123456789]
[a-z]	匹配任何小写字母
[A-Z]	匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	匹配除了数字外的字符

五，一些注意点

1、re.match与re.search与re.findall的区别：

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

a=re.search('[\d]',"abc33").group()
print(a)
p=re.match('[\d]',"abc33")
print(p)
b=re.findall('[\d]',"abc33")
print(b)
执行结果：
3
None
['3', '3']

2、贪婪匹配与非贪婪匹配

*?,+?,??,{m,n}? 前面的*,+,?等都是贪婪匹配，也就是尽可能匹配，后面加?号使其变成惰性匹配

a = re.findall(r"a(\d+?)",'a23b')
print(a)
b = re.findall(r"a(\d+)",'a23b')
print(b)
执行结果：
['2']
['23']

a = re.match('<(.*)>','<H1>title<H1>').group()
print(a)
b = re.match('<(.*?)>','<H1>title<H1>').group()
print(b)
执行结果：
<H1>title<H1>
<H1>

a = re.findall(r"a(\d+)b",'a3333b')
print(a)
b = re.findall(r"a(\d+?)b",'a3333b')
print(b)
执行结果如下：
['3333']
['3333']
#######################
这里需要注意的是如果前后均有限定条件的时候，就不存在什么贪婪模式了，非匹配模式失效。

3、用flags时遇到的小坑

print(re.split('a','1A1a2A3',re.I))#输出结果并未能区分大小写
这是因为re.split(pattern，string，maxsplit,flags)默认是四个参数，当我们传入的三个参数的时候，系统会默认re.I是第三个参数，所以就没起作用。如果想让这里的re.I起作用，写成flags=re.I即可。

六，几个常见正则例子：

匹配手机号

匹配IP V4

 
      ip_addr  
      =  
      "inet 192.168.60.223 netmask 0xffffff00 broadcast 192.168.60.255" 
     

 
      m  
      =  
      re.search( 
      "\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}" 
      , ip_addr) 
     

 
      print 
      (m.group())

 
      匹配IP 
     

re.search(r"(([01]?\d?\d|2[0-4]\d|25[0-5])\.){3}([01]?\d?\d|2[0-4]\d|25[0-5]\.)","192.168.1.1")

分组匹配地址　　

匹配email

匹配式子中最中间的括号

formula = "1 - 2 * ( (60-30 +(-9-2-5-2*3-5/3-40*4/2-3/5+6*3) * (-9-2-5-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )"

m = re.search("\([^()]*\)", formula)

匹配电话号码

p = re.compile(r'\d{3}-\d{6}')
print(p.findall('010-628888'))

实例：计算器源码

JieFeiLau

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Python正则表达式

语法:123456import re #导入模块名 p = re.compile("^[0-9]") #生成要匹配的正则对象， ^代表从开头匹配，[0-9]代表匹配0至9的任意一个数字，所以这里的意思是对传进来的字符串进行匹配，如果这个字符串的开头第一个字符是数字，就代表匹配上了 m = p.match('14534Abc') #按上面生成的正则对象去匹配字符串，如果能匹配成功，这...
复制链接

扫一扫