正则表达式
正则表达式,又称规则表达式**。**(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
- 给定的字符串是否符合正则表达式的过滤逻辑(匹配)
- 通过正则表达式,从字符串中获得完美想要的特定的部分
使用场景
- 爬虫
- 数据挖掘和分析
因为Python是一门高级语言,程序员在使用时无需关心内存的分配和释放,因为此工作都是交给Python解释器来执行,所以,析构函数的调用是由解释器在进行垃圾回收时自动触发执行的。
在Python中使用正则需要导入re
包
import re
首先我们来看两个例子来体验一下正则表达式的威力吧:
### 引入案例1
比如,已知一个列表:
li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]
找出以Ch开头的字串。
# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
if i[0:2] == "Ch":
lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])
# 在a中,提取出23 5 67
import re
a='ab23fd5g67'
m = r'[0-9]+'
num = re.findall(m,a)
print(num)
#23 5 67
python 正则表达式的基础
单字符匹配规则
字符 | 功能 |
---|---|
. | 匹配任意一个字符(除了\n) |
[] | 匹配[]中列举的字符 |
\d | 匹配数字(0-9) |
\D | 匹配非数字(\d取反) |
\w | 匹配字,A-Z,a-z,0-9,_ |
\W | \w取反 |
\s | 匹配空白字符,比如空格 \tab |
\S | 取反 |
-
re.math(pattern,string,flags=0 )
作用:从字符串的开头匹配一个模式
-
匹配成功返回一个匹配成功的对象
-
否则,返回None
参数说明:
-
pattern:匹配的正则表达式
-
string:要匹配的字符串
-
flags:标志位,用于控制正则表达式非匹配方式。比如是否匹配多行,是否区分大小写。
-
re.group([group1,…]字符串或者元组
- 作用:获得一个或者多个分组截获的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号,也可以使用别名
- 编号0代表匹配整个子串,默认返回group(0)
- 如果没有截获字符串,返回None。
- 如果截获多次的组,返回最后一次截获的子串。
-
re.groups([default=None])tuple
- 作用:以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,3…,last)
- 如果没有截获字符串的组,默认返回None
demo(.):
import re
m = re.match('.','\n') # \n报错
print(m.group())
m = re.match('.','s') # match 匹配开头的
print(m.group()) #s
m = re.match('.','city') # match 匹配开头的
print(m.group()) #c
demo([ ]):
m = re.match('[Cc]','city')
print(m.group()) #c
m = re.match('[Cc]','City') # match 匹配开头的
print(m.group()) #C
m = re.match('[0123456789]', '595')
print(m.group())
m = re.match('[0-9]', '595') # [0123456789]<--->[0-9]
print(m.group())
demo(\d,\D):
m = re.match(r'\D', 'i234')
print(m.group()) #i
m = re.match(r'\d', '234')
print(m.group()) #2
demo(\w,\W):
m = re.match(r'\w', 'we234')
print(m.group()) #w
m = re.match(r'\w', '234')
print(m.group()) #2
m = re.match(r'\W', ' 234')
print(m.group()) #空格
demo(\s,\S):
m = re.match(r'\s', ' 234')
print(m.group()) # 空格
m = re.match(r'\S', 'w234')
print(m.group()) #w
数量匹配规则
字符 | 功能 |
---|---|
* | 匹配前一个字符出现0次多次或者无限次,可有可无,可多可少 |
+ | 匹配前一个字符出现1次多次或者无限次,直到出现一次 |
? | 匹配前一个字符出现1次或者0次,要么有1次,要么没有 |
{m} | 匹配前一个字符出现m次 |
{m,} | 匹配前一个字符至少出现m次 |
{m,n} | 匹配前一个字符出现m到n次 |
demo(*):
m = re.match('[A-Z][a-z]*', 'SccitySAAsss')
print(m.group()) #Sccity
m = re.match('[A-Z]*[a-z]', 'SSSSSSccitySAAsss')
print(m.group())#SSSSSSc
demo(+):
m = re.match('[A-Z][a-z]+', 'Sccity')
print(m.group()) #Sccity
pattren = input('输入匹配规则')
sr = input('输入匹配的字符串')
m=re.match(pattren,sr)
print(m.group())
#输入匹配规则1[35678]\d{9}
#输入匹配的字符串189677200162626264464
#18967720016
表示边界
字符 | 功能 |
---|---|
^ | 匹配字符串开头 |
$ | 匹配这字符的结尾 |
\b | 匹配一个单词的边界 boundary |
\B | 匹配非单词边界 |
匹配分组
字符 | 功能 |
---|---|
| | |
(ab) | 将括号中的字符作为一个分组 |
\num | 引用分组num匹配到的字符串 |
(?p) | 分组起别名 |
(?p=name) | 引用别名为name分组匹配到的字符串 |
str = '<h1>hello world!</h1>'
pat = '<h1>(.*)</h1>'
res =re.match(pat,str)
print(res.group())
print(res.group(1))
print(res.groups())
#<h1>hello world!</h1>
#hello world!
#('hello world!',)
re.search(pattern,str,flags=0)
- 作用:扫描整个字符串,返回第一次成功匹配的对象
- 如果匹配失败,返回None
- 参数:
- pattern:匹配的正则表达式
- string:要匹配的字符串
- flags:标志位,用于控制正则表达式非匹配方式。比如是否匹配多行,是否区分大小写。