正则表达式

最新推荐文章于 2024-05-24 10:10:07 发布

fluflu4396

最新推荐文章于 2024-05-24 10:10:07 发布

阅读量284

点赞数

分类专栏：学习

本文链接：https://blog.csdn.net/fluflu4396/article/details/98656128

版权

学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

本文介绍了正则表达式的基本概念和在Python中的使用。通过实例展示了如何利用正则表达式进行字符串匹配，包括单字符匹配规则、数量匹配规则、边界匹配和分组匹配。并给出了从文本中提取电话号码、特定名字和电话号码的示例。

摘要由CSDN通过智能技术生成

正则表达式

正则表达式，又称规则表达式。计算机科学的一个概念。正则表达式通常用来被检索，替换那些符合某个模式(规则)的文本。

给定的字符串是否符合正则表达式的过滤逻辑(匹配)
通过正则表达式，从字符串中获得我们想要的特定的部分。

使用场景

爬虫
数据挖掘和分析

在Python中使用正则需要导入re包

import re

首先我们来看两个例子来体验一下正则表达式的威力吧：

### 引入案例1

比如，已知一个列表：

li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]

找出以Ch开头的字串。

# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
	if i[0:2] == "Ch":
		lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])

在来看个例子：

```python
张伟 86-14870293148 \n
王伟 +86-13285654569 \n
王芳 15856529115 \n
李伟 13022816340 \n
王秀英 (86)14785720656 \n
李秀英 17201444672 \n
李娜 15682812452 \n
张秀英 14326967740 \n
刘伟 15146435743 \n
张敏 (86)-17712576838 \n
李静 86 14295083635 \n
张丽 (+86) 13722348123 \n
王静 17587918887 \n
王丽 15493106739 \n
李强 13786842977 \n
张静 86-15542304386 \n
李敏 15642387356 \n
王敏 18627216756 \n
王磊 17206185726 \n
李军 17857426238 \n
刘洋 17345352790 \n
```

对于这样一段字符串，现在让你做如下处理：

1.提取所有 11 位数字电话号码

2.提取所有 18 或 13 开头的电话号码

3.提取所有“王”姓同学的名字

4.提取所有“张”姓同学的电话号码

5.重新排版，排版成统一的格式，去掉国家区号。

python正则表达式的基础

单字符匹配规则

字符	功能
.	匹配任意一个字符(除了\n)
[]	匹配[]中列举的字符
\d	匹配数字(0-9)
\D	匹配非数字(\d取反)
\w	匹配字，A-Z,a-z，0-9，下划线
\W	\w取反
\s	匹配空白字符，比如空格 \tab
\S	\s取反

re.match(pattern,string,flags=0)
- 作用：从字符串的开头开始，匹配一个模式
  - 匹配成功，返回一个匹配成功的对象
  - 否则，返回None
- 参数说明：
  - pattern：匹配的正则表达式
  - string：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否区分大小写。
re.group([group1,…])字符串或者元组
- 作用：获得一个或者多个分组截获的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号，也可以使用别名
- 编号0代表匹配整个子串，默认返回group(0)
- 如果没有截获字符串，返回None。
- 截获了多次的组，返回最后一次截获的子串
re.group([default=None]) tuple
- 作用：以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,…,last)
- 如果没有截获字符串的组，默认返回None。

demo：

import re
m=re.match('.','s')#s
print(m.group())
m=re.match('.','d')#d
print(m.group())
m=re.match('.','city')#c
print(m.group())
m=re.match('.','\n')#报错
print(m.group())

[]

如果city的首字母是小写，则正则表达式需要小写的c

数量匹配规则

字符	功能
*	匹配前一个字符出现0次多次或者无限次，可有可无，可多可少
+	匹配前一个字符出现1次多次或者无限次，直到出现一次
?	匹配前一个字符出现一次或者0次，要么有一次要么没有
{m}	匹配前一个字符出现m次
{m,}	匹配前一个字符至少出现m次
{m,n}	匹配县一个字符出现m到n次

import re
m=re.match('[A-Z][a-z]*','AAcityrrd')
print(m.group())
#
A

手机号的匹配规则

全是数字

都是11位

第一位都是1,第二位是2345678中的一位

import re
pattern=input("请输入匹配规则")
sr=input("请输入匹配字符串：")
m=re.match(pattern,sr)
print(m.group())

表示边界( boundary)

字符	功能
^	匹配字符串的开头
$	匹配字符串的结尾
\b	匹配一个单词的边界
\B	匹配非单词边界

匹配分组

字符	功能
	匹配左右任意一个表达式
(ab)	将括号中的字符作为一个分组
\num	引用分组num匹配到的字符串
(?P)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

re.search(pattern,str,flags=0)
- 作用：扫描整个字符串，返回第一次成功匹配的对象
- 如果匹配失败，返回None

re.match 和re.search()的区别

re.match()从字符串开头进行匹配，如果匹配失败，None;
re.search()匹配整个字符串，知道找到一个匹配，如果匹配失败，None

re.findall(pattern,str,flags=0)

作用：获取字符串所有匹配的子串，并全部返回

re.finditer(pattern,str,flags=0)

作用：获取字符串所有匹配的子串，并返回一个迭代器

import re
print(re.search("a",'aliyun is a.').group())
print(re.search("a.",'Aliyun is a.').group())
print(re.search("yun",'aliyun is a.').group())
print(re.findall("a",'aliyun is a.'))
for i in re.finditer("yun",'aliyun is a.'):
    print(i)

arch(“a”,‘aliyun is a.’).group())
print(re.search(“a.”,‘Aliyun is a.’).group())
print(re.search(“yun”,‘aliyun is a.’).group())
print(re.findall(“a”,‘aliyun is a.’))
for i in re.finditer(“yun”,‘aliyun is a.’):
print(i)