正则表达式
正则表达式,又称规则表达式**。**(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
- 给定的字符串是否符合正则表达式的过度逻辑(匹配)
- 通过正则表达式,从字符串中获得我们想要的特定的部分
使用场景
- 爬虫
- 数据挖掘和分析
在Python中使用正则需要导入re
包
import re
首先我们来看两个例子来体验一下正则表达式的威力吧:
引入案例
比如,已知一个列表:
li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]
找出以Ch开头的字串。
# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
if i[0:2] == "Ch":
lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])
如果复杂一点 在下面字符串中提取指定字符
b='<table><tr>hello world 18111234589<tr><tr><span>name:张三,tel:18711001111</span></tr></table>'
a=b.find('<span>')+len('<span>')
c=b.find('</span>')
print(b[a:c])
加入存在a='asf23agd5agwa78’提取23 5 78如何实现
正则
import re
a='ab23fd5sf44'
# 提取23 5 44
m=r'[0-9]+'
num=re.findall(m,a)
print(num)
['23', '5', '44']
python正则表达式的基础
简单函数的说明
-
re.match(pattern,string,flags=0)
- 作用:从字符串的开头开始匹配一个模式
- 匹配成功,返回一个匹配成功的对象
- 否则,返回None
- 参数说明:
- pattern:匹配的正则表达式
- string:要匹配的字符串
- flags:标志位,用于控制正则表达式的匹配方式。比如是否匹配多行,是否区分大小写
- 作用:从字符串的开头开始匹配一个模式
-
re.group([group1,…]) 字符串或者元组
- 作用:获得一个或者多个分组截获的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号,也可以使用别名
- 编号0代表匹配整个子串,默认返回group(0)
- 如果没有截获字符串,返回None
- 截获了多次的组,返回最后一次截获的子串
-
re.groups([default=None]) 接收默认为tuple
- 作用:以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,…,last)
- 如果没有截获字符串的组,默认返回None
-
re.search(pattern,str,flags=0)
- 作用:扫描整个字符串,返回第一次成功匹配的对象
- 如果匹配失败,返回None
- 参数:
- pattern:匹配的正则表达式
- string:要匹配的字符串
- flags:标志位,用于控制正则表达式的匹配方式。比如是否匹配多行,是否区分大小写
print(re.search('a','Aliyun is a.').group()) a
-
re.findall(pattern,str,flags=0)
- 作用:获取字符串中所有匹配的子串,并以列表形式返回,不用.group()返回输出
print(re.findall('a','Aliyun is a.a'))
['a', 'a']
-
re.finditer(pattern,str,flags=0)
- 作用:获取字符串所有匹配的子串,并返回一个迭代器
for i in re.finditer('a','Aliyun is a.a'): print(i) print(i.group()) <_sre.SRE_Match object; span=(10, 11), match='a'> a <_sre.SRE_Match object; span=(12, 13), match='a'> a
re.match()和re.search()的区别
- re.match()从字符串开头开始匹配,如果匹配失败,None
- re.search()匹配整个字符串,直到找到一个匹配,如果匹配失败,None
单字符匹配规则
字符 | 功能 |
---|---|
. | 匹配任意一个字符(除了\n) |
[] | 匹配[]中列举的字符 |
\d | 匹配数字(0-9) |
\D | 匹配非数字(\d取反) |
\w | 匹配字符,A-Z,a-z,0-9,_ |
\W | \w取反 |
\s | 匹配空白字符,比如空格 \tab |
\s | 匹配非空白字符,\s取反 |
demo:
import re
m=re.match('.','asfasf')
print(m.group())
m=re.match('[Aa]','Asf')
print(m.group())
m=re.match('.','\n')
print(m.group())
a
A
print(m.group())
AttributeError: 'NoneType' object has no attribute 'group'
m=re.match('[0123456789]','665ss')
print(m.group())
m=re.match('[0-9]','66ss')
print(m.group())
6
6
m=re.match('\d','01aaa')
print(m.group())
m=re.match('\w','as')
print(m.group())
m=re.match('\s',' as')
print(m.group())
0
a
# 空格
数量匹配规则
字符 | 功能 |
---|---|
* | 匹配前一个字符出现0次多次或者无限次,可有可无,可多可少 |
+ | 匹配前一个字符出现1次多次或者无限次,直到出现一次 |
? | 匹配前一个字符出现1次或者0次,要么有1次,要么没有 |
{m} | 匹配前一个字符出现m次 |
{m,} | 匹配前一个字符至少出现m次 |
{m,n} | 匹配前一个字符出现m到n次 |
demo:
# 手机号的匹配规则
# 全是数字
# 都是11位
# 第一位都是1,第二位是35678中的一个
import re
pattern=input('请输入匹配规则:')
sr=input('请输入匹配字符串:')
m=re.match(pattern,sr)
print(m.group())
m=re.match('1[35678]\d{9}','15988802000')
print(m.group())
请输入匹配规则:1[35678]\d{9}
请输入匹配字符串:15988802000
15988802000
# == m=re.match('1[35678]\d{9}','15988802000')
# print(m.group())
表示边界
字符 | 功能 |
---|---|
^ | 匹配字符串开头 |
$ | 匹配字符串的结尾 |
\b | 匹配一个单词的边界 |
\B | 匹配非单词边界 |
demo:
import re
sr=input('请输入匹配字符串:')
pattern=input('请输入匹配规则:')
m=re.match(pattern,sr)
print(m.group())
请输入匹配字符串:ci ty university
请输入匹配规则:^\w+\s\bty\b\s\w+ # \b要前后包住
ci ty university
匹配分组
字符 | 功能 |
---|---|
| | 匹配左右任意一个表达式 |
(ab) | 将括号中的字符作为一个分组 |
\num | 引用分组num匹配到的字符串 |
(?P) | 分组起别名 |
(?P=name) | 引用别名为name分组匹配到的字符串 |
匹配1-100的值
# 0--->0$
# 100--->100$
# 二位数--->[1-9]\d{0,1}
m=re.match('0$|100$|[1-9]\d{0,1}$','22')
print(m.group())
22
匹配特定字符串
str='<h1>hello world!</h1>'
pat='<h1>(.*)</h1>'
res=re.match(pat,str)
print(res.group())
print(res.group(1))
print(res.groups())
<h1>hello world!</h1>
hello world!
('hello world!',)
str='<span><h1>hello world!</h1></span>'
pat=r'<(.*)><(.*)>(.*)</\2></\1>'
res=re.match(pat,str)
print(res.group())
print(res.group(1))
print(res.groups())
<span><h1>hello world!</h1></span>
span
('span', 'h1', 'hello world!')