前言
在开发中可能会遇到大量的字符串处理工作,在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本,而python中re模块的使用可以带来很大便利。
re模块的使用
import re
result = re.match(正则表达式,要匹配的字符串)
result.group()
示例
In [1]: import re
In [2]: mm = 'myblog'
In [3]: result = re.match('my',mm)
In [4]: result.group()
Out[4]: 'my'
re.match()能够匹配以XXX开头的字符串,从左到右匹配,若字符串匹配正则表达式,则match方法返回匹配对象(Match Object),否则返回None,注意不是空字符串。
表示字符
字符 | 功能 |
---|---|
. | 匹配任意1个字符,除了\n |
[ ] | 匹配[ ]中列举的字符 |
\d | 匹配数字,即0-9 |
\D | 匹配非数字,即不是数字 |
\s | 匹配空白,即空格,tab键 |
\S | 匹配非空白 |
\w | 匹配单词字符,即a-z、A-Z、0-9、_ |
\W | 匹配非单词字符 |
示例
# coding:utf-8
import re
ret1 = re.match('.','Love') #从左至右匹配
R1 = ret1.group()
print("R1 = %s" %R1)
ret2 = re.match('\d.\d','888') #匹配数字以及任意字符
R2 = ret2.group()
print("R2 = %s" %R2)
ret3 = re.match('\W\w\S.',' Love')
R3 = ret3.group()
print("R3 = %s" %R3)
ret4 = re.match('[Ll]','love Love') #无论是大写L还是小写l皆可匹配
R4 = ret4.group()
print("R4 = %s" %R4)
ret5 = re.match('[0123456789]','8') #匹配数字0-9的第一种方法
R5 = ret5.group()
print("R5 = %s" %R5)
ret6 = re.match('[0-9]','8') #匹配数字0-9的第二种方法
R6 = ret6.group()
print("R6 = %s" %R6)
结果
R1 = L
R2 = 888
R3 = Lov
R4 = l
R5 = 8
R6 = 8
表示数量
字符 | 功能 |
---|---|
* | 匹配前⼀个字符出现0次或者⽆限次,即可有可⽆ |
+ | 匹配前⼀个字符出现1次或者⽆限次,即⾄少有1次 |
? | 匹配前⼀个字符出现1次或者0次,即要么有1次,要么没有 |
{m} | 匹配前⼀个字符出现m次 |
{m,} | 匹配前⼀个字符⾄少出现m次 |
{m,n} | 匹配前⼀个字符出现从m到n次 |
- 示例1:匹配出,一个字符串第一个字母为大小皆可,后面都是小写字母并且可有可无。
import re
ret1 = re.match('[A-Z][a-z]*','Aabcdefg')
R1 = ret1.group()
print("R1 = %s" %R1)
结果
R1 = Aabcdefg
- 示例2:匹配出,0-99之间的数字,包含01。
# coding:utf-8
import re
ret = re.match("[1-9]?[0-9]","08")
R =ret.group()
print('R = %s'%R)
- 示例3:匹配出,8到20位的密码,可以是⼤⼩写英⽂字⺟、数字、下划线,但不能以下划线开头。
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]{1}[a-zA-Z0-9_]{7,19}","12a3g45678")
R1 = ret.group()
print('R1 = %s'%R1)
ret = re.match("[a-zA-Z0-9]\w{7,19}","12a3g45678love")
R2 = ret.group()
print('R2 = %s'%R2)
结果
R1 = 12a3g45678
R2 = 12a3g45678love
- 示例4:匹配出163的邮箱地址,且@符号之前有4到20位,例如hello@163.com
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com","hello@163.com")
R1 = ret.group()
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com","hello@163.comhaha") #错误的匹配
R2 = ret.group()
print('R1 = %s'%R2)
结果
R1 = hello@163.com
R1 = hello@163.com
原生字符串
In [1]: import re
In [2]: mm = "c:\\a\\b\\c"
In [3]: mm
Out[3]: 'c:\\a\\b\\c'
In [4]: print(mm)
c:\a\b\c
In [5]: re.match("c:\\\\",mm).group()
Out[5]: 'c:\\'
In [6]: ret = re.match("c:\\\\",mm).group()
In [7]: print(ret)
c:\
可以看到,为了匹配⽂本中的字符"\",正则表达式⾥将需要4个反斜杠"\":前两个和后两个分别⽤于在编程语⾔⾥转义成反斜杠,转换成两个反斜杠后再在正则表达式⾥转义成⼀个反斜杠。Python中字符串前⾯加上 r 表示原⽣字符串,可以很好的解决这个问题,不怕漏写反斜杠。
In [8]: ret = re.match(r"c:\\a",mm).group()
In [9]: print(ret)
c:\a
表示边界
字符 | 功能 |
---|---|
^ | 匹配字符串开头 |
$ | 匹配字符串结尾 |
\b | 匹配⼀个单词的边界 |
\B | 匹配⾮单词边界 |
- 示例1,可以看到,之前hello@163.comhaha的邮箱地址并不正确,但是仍然匹配出来了,完善的re规则是,
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com$","hello@163.com")
R1 = ret.group()
print('R1 = %s'%R1)
- 示例2:单词边界
# coding:utf-8
import re
ret1 = re.match(r".*\bLove\b","I Love you")
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r".*\bLove\b","I Loveyou")
print("ret2 = %s" %ret2)
结果:
R1 = I Love
ret2 = None
- 示例3:非单词边界
# coding:utf-8
import re
ret1 = re.match(r".*\Blove\B", "Ilovecoding")
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r".*\Blove\B","I love coding")
print("ret2 = %s" %ret2)
结果
R1 = Ilove
ret2 = None
匹配分组
字符 | 功能 |
---|---|
| | 匹配左右任意一个表达式 |
(ab) | 将括号中字符作为⼀个分组 |
\num | 引⽤分组num匹配到的字符串 |
(?P<name>) | 分组起别名 |
(?P=name) | 引⽤别名为name分组匹配到的字符串 |
- 示例1:匹配0-100之间的自然数
# coding:utf-8
import re
ret1 = re.match(r"[1-9]?\d|100", "01")# 错误的情况
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r"[1-9]?\d$|100$", "99") #修改后的情况
R2 = ret2.group()
print('R2 = %s'%R2)
结果
R1 = 0
R2 = 99
- 示例2:
# coding:utf-8
import re
ret1 = re.match(r"([^-]*)-(\d+)","010-12345678")
R1 = ret1.group(0)
R2 = ret1.group(1)
R3 = ret1.group(2)
print('group(0) = %s'%R1)
print('group(1) = %s'%R2)
print('group(2) = %s'%R3)
结果
group(0) = 010-12345678
group(1) = 010
group(2) = 12345678
- 示例3:\number,匹配出 <html>hh</html>
# coding:utf-8
import re
ret1 = re.match(r"<[a-zA-Z]*>\w*</[a-zA-Z]*>$","<html>hh</html>") #第一种写法
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r"<([a-zA-Z]*)>\w*</\1>$", "<html>hh</html>") #分组引用的写法
R2 = ret2.group()
print('R2 = %s'%R2)
- 示例4:(?P<name>) (?P=name),匹配出 <html><h1>www.baidu.com</h1></html>
# coding:utf-8
import re
ret1 = re.match(r"<(?P<name_1>\w*)><(?P<name_2>\w*)>.*</(?P=name_2)></(?P=name_1)>$","<html><h1>www.baidu.com</h1></html>")
# name_1代表匹配到的别名,后面可以引用,name_2同理
R1 = ret1.group()
print('R1 = %s'%R1)
结果:
R1 = <html><h1>www.baidu.com</h1></html>
本文中的示例re匹配方式不唯一,正则表达式的方法是有多种写法的,只要能达到预期效果就可以。