正则
正则表达式,又称规则表达式**。**(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
- 给定的字符串是否符合正则表达式的过滤逻辑(匹配)
- 通过正则表达式,从字符串中获得我们想要的特定的部分。
使用场景
- 爬虫
- 数据挖掘和分析
在Python中使用正则需要导入re
包
import re
首先我们来看两个例子来体验一下正则表达式的威力吧:
引入案例1
比如,已知一个列表:
li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]
找出以Ch开头的字串。
# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
if i[0:2] == "Ch":
lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])
a = ‘ab23fd5g67’
取出 23 5 67
import re
a = 'ab23fd5g67'
m = r'[0-9]+'
num = re.findall(m,a)
print(num)
#输出
['23', '5', '67']
在python术语中,主要有两种方法完成模式匹配:“搜索”(re.search),即在字符串任意部分中搜索匹配的模式;而“匹配”是指判断一个字符串从头到尾是否都符合。
Python正则表达式基础
re.match
- re.match(pattern, string, flags = 0)
- 作用:从字符串的开头开始匹配一个模式
- 匹配成功返回一个匹配成功的对象
- 否则返回None
- 参数说明:
- pattern:匹配的正则表达式
- string:要匹配的字符串
- flags:标志位,用于控制正则表达式的匹配方式。比如是否匹配多行,是否区分大小写。
- 作用:从字符串的开头开始匹配一个模式
- re.group([group1,…])字符串或者元组
- 作用:获得一个或者多个分组截获的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号,也可以使用别名
- 编号0代表匹配整个字符串,默认返回group(0)
- 如果没有截获字符串,返回None。
- 截获了多次的组,返回最后一次截获的字串
- re.groups([ default = None]) tuple
- 作用:以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,3,…,last)
- 如果没有截获字符串的组,默认返回None
单字符匹配规则
字符 | 功能 |
---|---|
. | 匹配任意一个字符(除了 \n) |
[ ] | 匹配 [ ] 中列举的字符 |
\d | 匹配数字 (0~9) |
\D | 匹配非数字 (\d 取反) |
\w | 匹配字,AZ,az,0~9,_ |
\W | \w取反 |
\s | 匹配空白字符,比如空格 \tab |
\S | \s取反 |
1.
import re
m = re.match('.', 'Cbc')
print(m.group())
#输出
C
2.
import re
m = re.match('s', 'sbc')
print(m.group())
#输出
s
3.
import re
m = re.match('[sS]', 'sbc')
print(m.group()) #注意,一般是要根据字符串来选择正确的正则表达式
#输出
s
4.
import re
m = re.match('[0-9]', '66city')
print(m.group())
#输出
6
5.
import re
m = re.match('\d', '66city')
print(m.group())
#输出
6
6.
import re
m = re.match('\D', 'city')
print(m.group())
#输出
c
7.
import re
m = re.match('\w', 'ity')
print(m.group())
#输出
i
8.
import re
m = re.match('\s', ' ity')
print(m.group())
#输出一个空格
数量匹配规则
字符 | 功能 |
---|---|
* | 匹配前一个字符出现0次多次或者无限次,可有可无,可多可少 |
+ | 匹配前一个字符出现1次多次或者无限次,直到出现一次 |
? | 匹配前一个字符出现1次或者0次,要么有1次,要么没有 |
{m} | 匹配前一个字符出现m次 |
{m,} | 匹配前一个字符至少出现m次 |
{m,n} | 匹配前一个字符出现m到n次 |
*
import re
m = re.match('[A-Z][a-z]*', 'AAAAtsy')
print(m.group())
#输出
A
import re
m = re.match('[A-Z]*[a-z]', 'AAAAAatsy')
print(m.group())
#输出
AAAAAa
import re
m = re.match('[A-Z]*[a-z]*', 'AAAAAatsy')
print(m.group())
#输出
AAAAAatsy
+
import re
m = re.match('[A-Z][a-z]+', 'Aa') #前一个字符不能是0次
print(m.group())
#输出
Aa
手机号匹配
import re
#手机号匹配,11位,数字,1开头,第二位35678中的一位
pattern = input(':')
sr = input(':')
m = re.match(pattern, sr)
print(m.group())
:1[35678]\d{9} #输入的规则
:13555545454 #输入的号码
13555545454 #输出的号码
表示边界
字符 | 功能 |
---|---|
^ | 匹配字符串开头 |
$ | 匹配字符串的结尾 |
\b | 匹配一个单词的边界 |
\B | 匹配非单词边界( \b取反) |
import re
# ci ty university
sr = input(':')
pattern = input(':')
m = re.match(pattern, sr)
print(m.group())
:ci ty university #要匹配的字符
:^\w+\s\bty\b\s\w+ #匹配的规则
ci ty university
匹配分组
字符 | 功能 |
---|---|
| | 匹配左右任意一个表达式 |
(ab) | 将括号中的字符作为一个分组 |
\num | 引用分组num匹配到的字符串 |
(?P) | 分组起别名 |
(?P=name) | 引用别名为name分组匹配到的字符串 |
import re
# ci ty university
sr = input(':')
pattern = input(':')
m = re.match(pattern, sr)
print(m.group())
#0~100的数
:22
:0$|[1-9]\d{0,1}$|100$ #规则
22
import re
sr = "<span><h1>hello world!</h1></span>"
pat = '<(.+)><(.+)>(.*)</\2></\1>)'
res = re.match(pat,sr)
print(res.group())
print(res.group(1))
re.search
- re.search(pattern, str, flags = 0)
- 作用:扫描整个字符串,返回第一次成功匹配的对象
- 如果匹配失败,返回None。
- 参数:
- pattern:匹配的正则表达式
- string:要匹配的字符串
- flags:标志位,用于控制正则表达式的匹配方式。比如是否匹配多行,是否区分大小写。
import re
print(re.search('yun','Aliyun is a.').group())
#输出
yun
re.match()和re.search()的区别
- re.match() 从字符串的开头开始匹配
- re.search() 扫描整个字符串,返回第一次成功匹配的对象
re.findall
作用:获取字符串所有匹配的字串,并以列表形式返回
re.finditer
作用:获取字符串所有匹配的字串,并返回一个迭代器
import re
for i in re.finditer('yun','Aliyun is a yun.'):
print(i.group())
#输出
yun
yun