在Python中需要通过正则表达式对字符串进匹配的时候,可以使个python自带的模块,名字为re。
正则表达式的大致匹配过程是:
1.依次拿出表达式和文本中的字符比较,
2.如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。
3.如果表达式中有量词或边界,这个过程会稍微有一些不同。
r:在带有 'r'
前缀的字符串字面值中,反斜杠不必做任何特殊处理。 因此 r" "
表示包含 ''
和 'n'
两个字符的字符串,而 " "
则表示只包含一个换行符的字符串。
re模块的使用:import re
re.match函数
语法:re.match(pattern, string, flags=0)
pattern
匹配的正则表达式
string
要匹配的字符串
flags
标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。
- re.I 忽略大小写
- re.L 表示特殊字符集 w, W, , B, s, S 依赖于当前环境
- re.M 多行模式
- re.S 即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
- re.U 表示特殊字符集 w, W, , B, d, D, s, S 依赖于 Unicode 字符属性数据库
- re.X 为了增加可读性,忽略空格和 # 后面的注释
尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。匹配成功re.match方法返回一个匹配的对象。
如果上步匹配到数据的话,可以使group法来提取数据。以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。
group()用来提出分组截获的字符串**,**()用来分组,group() 同group(0)就是匹配正则表达式整体结果,group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。没有匹配成功的,re.search()返回None。
举例:
>>> import re
>>> result = re.match("itcast","itcast.cn")
>>> result.group()
'itcast'
从string头开始匹配pattern完全可以匹配,pattern匹配结束,同时匹配终止,后面的.cn不再匹配,返回匹配成功的信息。
匹配单个字符
字符
功能
位置
.
匹配任意1个字符(除了 )
[ ]
匹配[ ]中列举的字符
d
匹配数字,即0-9
可以写在字符集[…]中
D
匹配数字,即不是数字
可以写在字符集[…]中
s
匹配空,即空格,tab键
可以写在字符集[…]中
S
匹配空字符
可以写在字符集[…]中
w
匹配单词字符,即a-z、A-Z、0-9、_
可以写在字符集[…]中
W
匹配单词字符
可以写在字符集[…]中
w
w 匹配单词字符,即a-z、A-Z、0-9、_
W
匹配单词字符
[…]字符集,对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,比如[abc]和[a-c],第一个字符如果是表示取反。所有特殊字符(比如"]""-""")在字符集中都失去原来的含义,如要使用可把"]""-“放在第一个字符,”^"放在非第一个字符。
举例:
import re
ret = re.match(".","M")
print(ret.group())
ret = re.match("t.o","too")
print(ret.group())
ret = re.match("t.o","two")
print(ret.group())
# 如果hello的?字符?写,那么正则表达式需要?写的h
ret = re.match("h","hello Python")
print(ret.group())
# 如果hello的?字符?写,那么正则表达式需要?写的H
ret = re.match("H","Hello Python")
print(ret.group())
# ??写h都可以的情况
ret = re.match("[hH]","hello Python")
print(ret.group())
ret = re.match("[hH]","Hello Python")
print(ret.group())
ret = re.match("[hH]ello Python","Hello Python")
print(ret.group())
# 匹配0到9的多种写法
ret = re.match("[0123456789]Hello Python","7Hello Python")
print(ret.group())
ret = re.match("[0-9]Hello Python","7Hello Python")
print(ret.group())
# 匹配0到3和5-9
ret = re.match("[0-35-9]Hello Python","7Hello Python")
print(