Python—正则表达式的基础知识

最新推荐文章于 2023-05-06 14:07:58 发布

Dirge__

最新推荐文章于 2023-05-06 14:07:58 发布

阅读量287

点赞数

本文链接：https://blog.csdn.net/Dirge__/article/details/98507268

版权

文章目录

正则表达式

正则表达式

正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

给定的字符串是否符合正则表达式的过度逻辑（匹配）
通过正则表达式，从字符串中获得我们想要的特定的部分

使用场景

爬虫
数据挖掘和分析

在Python中使用正则需要导入re包

import re

首先我们来看两个例子来体验一下正则表达式的威力吧：

引入案例

比如，已知一个列表：

li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]

找出以Ch开头的字串。

# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
	if i[0:2] == "Ch":
		lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])

如果复杂一点在下面字符串中提取指定字符

b='<table><tr>hello world 18111234589<tr><tr><span>name:张三,tel:18711001111</span></tr></table>'
a=b.find('<span>')+len('<span>')
c=b.find('</span>')
print(b[a:c])

加入存在a='asf23agd5agwa78’提取23 5 78如何实现

正则

import re
a='ab23fd5sf44'
# 提取23 5 44
m=r'[0-9]+'
num=re.findall(m,a)
print(num)

['23', '5', '44']

python正则表达式的基础

简单函数的说明

re.match(pattern,string,flags=0)
- 作用：从字符串的开头开始匹配一个模式
  - 匹配成功，返回一个匹配成功的对象
  - 否则，返回None
- 参数说明：
  - pattern：匹配的正则表达式
  - string：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否匹配多行，是否区分大小写
re.group([group1,…]) 字符串或者元组
- 作用：获得一个或者多个分组截获的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号，也可以使用别名
- 编号0代表匹配整个子串，默认返回group(0)
- 如果没有截获字符串，返回None
- 截获了多次的组，返回最后一次截获的子串
re.groups([default=None]) 接收默认为tuple
- 作用：以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,…,last)
- 如果没有截获字符串的组，默认返回None
re.search(pattern,str,flags=0)
- 作用：扫描整个字符串，返回第一次成功匹配的对象
- 如果匹配失败，返回None
- 参数：
  - pattern：匹配的正则表达式
  - string：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否匹配多行，是否区分大小写
```
print(re.search('a','Aliyun is a.').group())

a
```
re.findall(pattern,str,flags=0)
- 作用：获取字符串中所有匹配的子串，并以列表形式返回，不用.group()返回输出

print(re.findall('a','Aliyun is a.a'))

['a', 'a']

re.finditer(pattern,str,flags=0)

作用：获取字符串所有匹配的子串，并返回一个迭代器

for i in re.finditer('a','Aliyun is a.a'):
    print(i)
    print(i.group())

<_sre.SRE_Match object; span=(10, 11), match='a'>
a
<_sre.SRE_Match object; span=(12, 13), match='a'>
a

re.match()和re.search()的区别

re.match()从字符串开头开始匹配，如果匹配失败，None
re.search()匹配整个字符串，直到找到一个匹配，如果匹配失败，None

单字符匹配规则

字符	功能
.	匹配任意一个字符（除了\n）
[]	匹配[]中列举的字符
\d	匹配数字（0-9）
\D	匹配非数字（\d取反）
\w	匹配字符，A-Z，a-z，0-9，_
\W	\w取反
\s	匹配空白字符，比如空格 \tab
\s	匹配非空白字符，\s取反

demo：

import re
m=re.match('.','asfasf')
print(m.group())
m=re.match('[Aa]','Asf')
print(m.group())
m=re.match('.','\n')
print(m.group())

a
A
    print(m.group())
AttributeError: 'NoneType' object has no attribute 'group'

m=re.match('[0123456789]','665ss')
print(m.group())
m=re.match('[0-9]','66ss')
print(m.group())

6
6

m=re.match('\d','01aaa')
print(m.group())
m=re.match('\w','as')
print(m.group())
m=re.match('\s',' as')
print(m.group())

0
a
   # 空格

数量匹配规则

字符	功能
*	匹配前一个字符出现0次多次或者无限次，可有可无，可多可少
+	匹配前一个字符出现1次多次或者无限次，直到出现一次
？	匹配前一个字符出现1次或者0次，要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m,}	匹配前一个字符至少出现m次
{m,n}	匹配前一个字符出现m到n次

demo:

# 手机号的匹配规则
# 全是数字
# 都是11位
# 第一位都是1，第二位是35678中的一个

import re
pattern=input('请输入匹配规则：')
sr=input('请输入匹配字符串：')
m=re.match(pattern,sr)
print(m.group())
m=re.match('1[35678]\d{9}','15988802000')
print(m.group())

请输入匹配规则：1[35678]\d{9}
请输入匹配字符串：15988802000 
15988802000               
# == m=re.match('1[35678]\d{9}','15988802000')
#    print(m.group())

表示边界

字符	功能
^	匹配字符串开头
$	匹配字符串的结尾
\b	匹配一个单词的边界
\B	匹配非单词边界

demo:

import re
sr=input('请输入匹配字符串：')
pattern=input('请输入匹配规则：')
m=re.match(pattern,sr)
print(m.group())

请输入匹配字符串：ci ty university
请输入匹配规则：^\w+\s\bty\b\s\w+      # \b要前后包住
ci ty university

匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中的字符作为一个分组
\num	引用分组num匹配到的字符串
(?P)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

匹配1-100的值

 # 0--->0$
# 100--->100$
# 二位数--->[1-9]\d{0,1}
m=re.match('0$|100$|[1-9]\d{0,1}$','22')
print(m.group())

22

匹配特定字符串

str='<h1>hello world!</h1>'
pat='<h1>(.*)</h1>'
res=re.match(pat,str)
print(res.group())
print(res.group(1))
print(res.groups())

<h1>hello world!</h1>
hello world!
('hello world!',)

str='<span><h1>hello world!</h1></span>'
pat=r'<(.*)><(.*)>(.*)</\2></\1>'
res=re.match(pat,str)
print(res.group())
print(res.group(1))
print(res.groups())

<span><h1>hello world!</h1></span>
span
('span', 'h1', 'hello world!')

Dirge__

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python—正则表达式的基础知识

文章目录正则表达式引入案例python正则表达式的基础简单函数的说明单字符匹配规则数量匹配规则表示边界匹配分组正则表达式正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。给定的字符串是否符合正则表达式的过度逻辑（匹配）通过正...
复制链接

扫一扫