正则表达式是一种用来匹配字符串的强有力的武器,它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,就认为合法,否则,该字符串就是不合法的。正则表达式在各语言中都广泛使用,今天以Python为例,讲述正则表达式的使用。
- 语法规则
在正则表达式中,如果直接给出字符,就是精确匹配。其它规则如下:
- ”.”表示任意字符
- “\d”表示一个数字
- “\w”表示一个字母或数字
- “*”表示任意长度字符
- “+”表示至少一个字符
- “?”表示0个或1个字符
- “{n}”表示n个字符
- “\s”表示一个空格
- “^”表示行的开头
- “$” 表示行的结束
- “{n,m}”表示n~m个字符
示例: - “00\d” 可以匹配”007”
- “\d\d\d”可以匹配”010”
- “\w\w\d”可以匹配”py3”
- “py.”可以匹配”pyc”“pyo”“py!”
- ”\d{3}\s+\d{3,8}“可以匹配“010 82881354”
- “^\d”表示必须以数字开头
- “\d$”表示必须以数字结尾
- “A|B”可以匹配A或B
进阶
要做更精确地匹配,可以用”[]”表示范围,如下:- ”[0-9a-zA-Z_]”可以匹配一个数字、字母或者下划线
- “[0-9a-zA-Z_]+”可以匹配至少由一个数字、字母或者下划线组成的字符串,如:“a100、””0_Z”
- “[a-zA-Z_][0-9a-zA-Z_]*”可以匹配由字母或下划线开头,后接任意一个数字、字母或者下划线组成的字符串,如:”test01”
- re模块
Python提供了re模块,包含所有的正则表达式功能。如下:
import re
if re.match(r'^\d{3}\-\d{3,8}$', '010-12345'):
print("match success")
else:
print("match error")
if re.match(r'^\d{3}\s\d{3,8}$', '010-12345'):
print("match success")
else:
print("match error")
输出结果:
match success
match error
-4. 切分字符串
用正则表达式切分字符串比用固定的字符更灵活,如:
import re
print(re.split(r'\s+', 'a b c'))
输出结果:
['a', 'b', 'c']
-5. 分组
除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能。用”()”表示的就是要提取的分组。如下:
import re
m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
print(m.group(0))
print(m.group(1))
print(m.group(2))
输出结果:
010-12345
010
12345
-6. 编译
如果在项目中,一个正则表达式重复使用多次,出于对效率的考虑,可以预编译该正则表达式,接下来的使用中就可以直接匹配了,如下:
import re
re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
print(re_telephone.match('010-12345').groups())
print(re_telephone.match('010-8086').groups())
输出结果:
('010', '12345')
('010', '8086')