2.1 概述
- 学习动机
- 文本数据处理已经成为常见的编程工作之一
- 对文本内容的搜索,定位,提取是逻辑比较复杂的工作
- 为了快速方便的解决上述问题,产生了正则表达式技术
- 定义
即文本的高级匹配模式,其本质是由一系列字符和特殊符号构成的字串,这个字串即正则表达式。
- 原理
通过普通字符和有特定含义的字符,来组成字符串,用以描述一定的字符串规则,比如:重复,位置等,来表达某类特定的字符串,进而匹配。
- 学习目标
- 熟练掌握正则表达式元字符
- 能够读懂常用正则表达式,编辑简单的正则规则
- 能够熟练使用re模块操作正则表达式
2.2 元字符使用
- 普通字符
匹配规则:每个普通字符匹配其对应的字符
e.g.
In : re.findall('ab',"abcdefabcd")
Out: ['ab', 'ab']
注意:正则表达式在python中也可以匹配中文
- 或关系
元字符: |
匹配规则: 匹配 | 两侧任意的正则表达式即可
e.g.
In : re.findall('com|cn',"www.baidu.com/www.tmooc.cn")
Out: ['com', 'cn']
- 匹配单个字符
元字符:.
匹配规则:匹配除换行外的任意一个字符
e.g.
In : re.findall('张.丰',"张三丰,张四丰,张五丰")
Out: ['张三丰', '张四丰', '张五丰']
- 匹配字符集
元字符: [字符集]
匹配规则: 匹配字符集中的任意一个字符
表达形式:
[aeiou你我他] 表示 [] 中的任意一个字符
[0-9],[a-z],[A-Z] 表示区间内的任意一个字符
[_#?0-9a-z] 混合书写,一般区间表达写在后面
e.g.
In : re.findall('[aeiou]',"How are you!")
Out: ['o', 'a', 'e', 'o', 'u']
- 匹配字符集反集
元字符:[^字符集]
匹配规则:匹配除了字符集以外的任意一个字符
e.g.
In : re.findall('[^0-9]',"Use 007 port")
Out: ['U', 's', 'e', ' ', ' ', 'p', 'o', 'r', 't']
- 匹配字符重复
元字符: *
匹配规则:匹配前面的字符出现0次或多次
e.g.
In : re.findall('wo*',"wooooo~~w!")
Out: ['wooooo', 'w']
元字符:+
匹配规则: 匹配前面的字符出现1次或多次
e.g.
In : re.findall('[A-Z][a-z]+',"Hello World")
Out: ['Hello', 'World']
元字符:?
匹配规则: 匹配前面的字符出现0次或1次
e.g. 匹配整数
In [28]: re.findall('-?[0-9]+',"Jame,age:18, -26")
Out[28]: ['18', '-26']
元字符:{n}
匹配规则: 匹配前面的字符出现n次
e.g. 匹配手机号码
In : re.findall('1[0-9]{10}',"Jame:13886495728")
Out: ['13886495728']
元字符:{m,n}
匹配规则: 匹配前面的字符出现m-n次
e.g. 匹配qq号
In : re.findall('[1-9][0-9]{5,10}',"Baron:1259296994")
Out: ['1259296994']
- 匹配字符串开始位置
元字符: ^
匹配规则:匹配目标字符串的开头位置
e.g.
In : re.findall('^Jame',"Jame,hello")
Out: ['Jame']
- 匹配字符串的结束位置
元字符: $
匹配规则: 匹配目标字符串的结尾位置
e.g.
In : re.findall('Jame$',"Hi,Jame")
Out: ['Jame']
规则技巧:
^
和$
必然出现在正则表达式的开头和结尾处。如果两者同时出现,则中间的部分必须匹配整个目标字符串的全部内容。
- 匹配任意(非)数字字符
元字符: \d
\D
匹配规则:\d
匹配任意数字字符,\D
匹配任意非数字字符
e.g. 匹配端口
In : re.findall('\d{1,5}',"Mysql: 3306, http:80")
Out: ['3306', '80']
- 匹配任意(非)普通字符
元字符: \w
\W
匹配规则: \w
匹配普通字符,\W
匹配非普通字符
说明: 普通字符指数字,字母,下划线,汉字。
e.g.
In : re.findall('\w+',"server_port = 8888")
Out: ['server_port', '8888']
- 匹配任意(非)空字符
元字符: \s
\S
匹配规则: \s
匹配空字符,\S
匹配非空字符
说明:空字符指 空格 \r \n \t \v \f
字符
e.g.
In : re.findall('\w+\s+\w+',"hello world")
Out: ['hello world']
- 匹配(非)单词的边界位置
元字符: \b
\B
匹配规则: \b
表示单词边界,\B
表示非单词边界
说明:单词边界指数字字母(汉字)下划线与其他字符的交界位置。
e.g.
In : re.findall(r'\bis\b',"This is a test.")
Out: ['is']
注意: 当元字符符号与Python字符串中转义字符冲突的情况则需要使用r将正则表达式字符串声明为原始字符串,如果不确定那些是Python字符串的转义字符,则可以在所有正则表达式前加r。
类别 | 元字符 |
---|---|
匹配字符 | . [...] [^...] \d \D \w \W \s \S |
匹配重复 | * + ? {n} {m,n} |
匹配位置 | ^ $ \b \B |
其他 | ` |
元字符使用示例:
import re
# 普通字符
# result = re.findall('你好',"abcdef你好cd")
# print(result)
# 或关系
# result = re.findall('ab|cd',"abcdefbcab")
# print(result)
# 匹配任意一个字符 除了 \n
# result = re.findall('张.丰',"张三丰,张四丰,张五丰")
# print(result)
# [] 匹配字符集中一个字符
# result = re.findall('[aeiou]', "How are you!")
# result = re.findall('[ !A-Z]', "How are you!")
# print(result)
# 字符集取反
# result = re.findall('[^a-z]', "How are you!")
# print(result)
# 匹配重复0次或多次
# result = re.findall('wo*', "wooooo~~w!")
# print(result)
# 匹配重复1次或多次
# result = re.findall('wo+', "wooooo~~w!")
# print(result)
# 匹配重复0次或1次
# result = re.findall('wo?', "wooooo~~w!")
# print(result)
# 重复指定次数
# result = re.findall('wo{3}', "wooooo~~w!")
# print(result)
# 匹配重复 m - n 次
# result = re.findall('wo{2,4}', "wooooo~~w!")
# print(result)
# 开头结尾位置
# result = re.findall('Jame$', "Hi,Jame")
# result = re.findall('^Jame', "Jame,hi")
# print(result)
# 匹配数字字符或者非数字
# result = re.findall('\d{1,5}',"Mysql: 3306, http:80")
# result = re.findall('\D+',"Mysql: 3306, http:80")
# print(result)
# \w 普通字符 和 \W非普通字符
# result = re.findall('\w+',"server_port = 你好")
# result = re.findall('\W+',"server_port = 8888")
# print(result)
# 空字符 和 非空字符
# result = re.findall('\w+\s+\w+',"Hello world")
# result = re.findall('\S+',"Hello world")
# print(result)
# 单词边界
# result = re.findall(r'\bis',"This is a test")
# print(result)
# 特殊符号匹配
# result = re.findall(r'-?\d+\.?\d*',"-5.4 3.28 45 76.3 -21")
# print(result)
# 贪婪
# result = re.findall("ab+","abbbbbbbbbc")
# print(result)
# 非贪婪 (懒惰模式) + --> +?
# result = re.findall("ab+?","abbbbbbbbbc")
# print(result)
# 子组
# result = re.search("(ab)+","abababab")
# result = re.search(r'(?P<xing>王|李)\w{1,3}', "王者荣耀")
# print(result.group()) # 获取匹配内容
随堂练习:
import re
# 匹配出其中大写字母开头的单词
result = re.findall('[A-Z][a-z]*', "How are you,Jame!,I am")
print(result)
# 匹配出年月日
result = re.findall('[0-9]+', "今天是:2021-4-30")
print(result)
# 匹配出数字
result = re.findall('-?[0-9]+', "-20°的天气,战士负重15Kg")
print(result)
# 匹配电话号码
result = re.findall(r'\b1[3578][0-9]{9}\b', "王总:13838384386,银行卡:693518345879556790")
print(result)
# 匹配qq号码 6-11
result = re.findall('[1-9][0-9]{5,10}', "王总:4268858")
print(result)
# 验证一个用户注册的用户名是否由6-12位数字字母下划线构成
name = input("User:")
result = re.findall("^[_0-9a-zA-Z]{6,12}$",name)
print(result)