Python正则表达式-基础
python使用正则,需要先引入re模块
import re
匹配符
单个字符表达式
含义
[0-9]
0123456789任意之一
[a-z]
小写字母任意之一
[A-Z]
大写字母任意之一
\d
等同于[0-9]
\D
等同于[^0-9]匹配非数字,即\d的取反
\w
等同于[a-z0-9A-Z_]匹配大小写字母、数字和下划线
\W
等同于[^a-z0-9A-Z_]等同于上一条取反
.
一个任意字符
匹配模式
匹配模式表达式
含义
?
指定字符一次或者不出现
+
至少出现一次
*
出现任意次,包括不出现
^
从字符串开头进行匹配
$
匹配到字符串的结尾
()
分组符、也可用于或匹配
案例一:匹配邮箱
匹配126,163邮箱地址
# 匹配126,163邮箱地址
ret = re.match(r"^[0-9a-zA-Z_]{4,20}@(163|126)\.com$", 'hello@126.com')
if ret:
print('符合要求 - ', ret.group(), ret.group(1))
else:
print('不符合要求!')
案例二:匹配邮箱并进行分组取值
匹配126,163邮箱地址
# 使用()对匹配值进行分组,可以方便的取得匹配值
# 分组1表示@前面的字符串
# 分组2表示163或者126
ret = re.match(r"^([0-9a-zA-Z_]{4,20})@(163|126)\.com$", 'hello@126.com')
if ret:
print('符合要求 - ', ret.group(), ret.group(1), ret.group(2))
else:
print('不符合要求!')
案例三:在正则表达式中使用分组
匹配网页源代码块
# 在正则表达式中使用分组
# 使用\分组数表示需要使用的分组
ret = re.match(r"^.*(\1)>$", '
hello')
if ret:
print('符合要求 - ', ret.group())
else:
print('不符合要求!')
使用多个分组
# 在正则表达式中使用分组
# 使用\分组数表示需要使用的分组,这里表示多个分组
ret = re.match(r"^.*(\2)>(\1)>$", '
hello')
if ret:
print('符合要求 - ', ret.group())
else:
print('不符合要求!')
案例四:在正则表达式中对分组进行命名
对分组进行命名 语法:标记分组 ?P引用分组 ?P=name
# 在正则表达式中使用分组
# 使用\分组数表示需要使用的分组,这里表示多个分组
ret = re.match(r"^\w+)>\w+)>.*(?P=p2)>(?P=p1)>$", '
hello')
if ret:
print('符合要求 - ', ret.group())
else:
print('不符合要求!')