Python：正则表达式的使用 / re模块

最新推荐文章于 2022-09-04 04:00:00 发布

ETalien_

最新推荐文章于 2022-09-04 04:00:00 发布

阅读量243

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/etalien_/article/details/107281856

版权

Python 专栏收录该内容

19 篇文章 1 订阅

订阅专栏

正则表达式

正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

所以我们判断一个字符串是否是合法的Email的方法是

创建一个匹配Email的正则表达式
用该正则表达式去匹配用户的输入来判断是否合法

在正则表达式中，如果直接给出字符，就是精确匹配。
\d可以匹配一个数字
\w可以匹配一个字母或数字
所以

‘00\d’可以匹配’007’，但无法匹配’00A’
‘\d\d\d’可以匹配’010’
‘\w\w\d’可以匹配’py3’

.可以匹配任意字符
所以

'py.‘可以匹配’pyc’、‘pyo’、'py!’

要匹配变长的字符，在正则表达式中
用*表示任意个字符（包括0个）
用+表示至少一个字符
用?表示0个或1个字符
用{n}表示n个字符
用{n,m}表示n-m个字符

来看一个复杂的例子：\d{3}\s+\d{3,8}
\d{3}表示匹配3个数字，例如’010’
\s可以匹配一个空格（也包括Tab等空白符），所以\s+表示至少有一个空格，例如匹配’ ‘，’ ‘等
\d{3,8}表示3-8个数字，例如’1234567’
综合起来，上面的正则表达式可以匹配以任意个空格隔开的带区号的电话号码

如果要匹配’010-12345’这样的号码呢？
由于’-‘是特殊字符，在正则表达式中，要用’'转义，所以，上面的正则是\d{3}-\d{3,8}

要做更精确地匹配，可以用[]表示范围，比如：
[0-9a-zA-Z_]可以匹配一个数字、字母或者下划线
[0-9a-zA-Z_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如’a100’，‘0_Z’，‘Py3000’等等
[a-zA-Z_] [0-9a-zA-Z_]*可以匹配由字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串，也就是Python合法的变量
[a-zA-Z_] [0-9a-zA-Z_]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）
A|B可以匹配A或B，所以(P|p)ython可以匹配’Python’或者’python’
^ 表示行的开头，^\d表示必须以数字开头
$ 表示行的结束，\d$ 表示必须以数字结束

re模块

由于Python的字符串本身也用\转义，所以要特别注意

s = 'ABC\\-001' # Python的字符串
# 对应的正则表达式字符串变成：
# 'ABC\-001'

因此强烈建议使用Python的r前缀，就不用考虑转义的问题了

s = r'ABC\-001' # Python的字符串
# 对应的正则表达式字符串不变：
# 'ABC\-001'

如何判断正则表达式是否匹配

re.match

match()方法判断是否匹配，如果匹配成功，返回一个Match对象，否则返回None

import re
print(re.match(r'^\d{3}\-\d{3,8}$', '010-12345678'))

常见的判断方法

test = '用户输入的字符串'
if re.match(r'正则表达式', test):
    print('ok')
else:
    print('failed')

re.split

a = 'a b   c'.split(' ')
print('a = ', a)

b = re.split(r'\s+', 'a b   c')
print('b = ', b)

c = re.split(r'[\s\,]+', 'a,b   c')
print('c = ', c)

d = re.split(r'[\s\,\;]+', 'a,b;c;;d  e')
print('d = ', d)

# 输出
a =  ['a', 'b', '', '', 'c']
b =  ['a', 'b', 'c']
c =  ['a', 'b', 'c']
d =  ['a', 'b', 'c', 'd', 'e']

group分组

用()表示的就是要提取的分组（Group）

e = re.match(r'^(\d{3})\-(\d{3,8})$', '010-12345678’)
print(e.group(0))  # 010-12345678
print(e.group(1))  # 010
print(e.group(2))  # 12345678

# 识别合法时间
t = '19:05:30'
m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
print(m.groups())  # ('19', '05', '30')

ETalien_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python：正则表达式的使用 / re模块

正则表达式正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。所以我们判断一个字符串是否是合法的Email的方法是创建一个匹配Email的正则表达式用该正则表达式去匹配用户的输入来判断是否合法在正则表达式中，如果直接给出字符，就是精确匹配。\d可以匹配一个数字\w可以匹配一个字母或数字所以‘00\d’可以匹配’007’，但无法匹配’00A’‘\d\d\d’可以
复制链接

扫一扫

专栏目录