python学习014_正则

最新推荐文章于 2024-07-20 08:27:55 发布

朕在卖萌

最新推荐文章于 2024-07-20 08:27:55 发布

阅读量124

点赞数

文章标签：学习

本文链接：https://blog.csdn.net/qq_41884861/article/details/98584461

版权

文章目录

正则
- - 引入案例1
Python正则表达式基础

正则

正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

给定的字符串是否符合正则表达式的过滤逻辑（匹配）
通过正则表达式，从字符串中获得我们想要的特定的部分。

使用场景

爬虫
数据挖掘和分析

在Python中使用正则需要导入re包

import re

首先我们来看两个例子来体验一下正则表达式的威力吧：

引入案例1

比如，已知一个列表：

li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]

找出以Ch开头的字串。

# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
	if i[0:2] == "Ch":
		lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])

a = ‘ab23fd5g67’

取出 23 5 67

import re
a = 'ab23fd5g67'
m = r'[0-9]+'
num = re.findall(m,a)
print(num)

#输出
['23', '5', '67']

在python术语中，主要有两种方法完成模式匹配：“搜索”(re.search)，即在字符串任意部分中搜索匹配的模式；而“匹配”是指判断一个字符串从头到尾是否都符合。

Python正则表达式基础

re.match

re.match(pattern, string, flags = 0)
- 作用：从字符串的开头开始匹配一个模式
  - 匹配成功返回一个匹配成功的对象
  - 否则返回None
- 参数说明：
  - pattern：匹配的正则表达式
  - string：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否匹配多行，是否区分大小写。
re.group([group1,…])字符串或者元组
- 作用：获得一个或者多个分组截获的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号，也可以使用别名
- 编号0代表匹配整个字符串，默认返回group(0)
- 如果没有截获字符串，返回None。
- 截获了多次的组，返回最后一次截获的字串
re.groups([ default = None]) tuple
- 作用：以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,3,…,last)
- 如果没有截获字符串的组，默认返回None

单字符匹配规则

字符	功能
.	匹配任意一个字符（除了 \n）
[ ]	匹配 [ ] 中列举的字符
\d	匹配数字（0~9）
\D	匹配非数字 (\d 取反)
\w	匹配字，A_Z，az,0~9,_
\W	\w取反
\s	匹配空白字符，比如空格 \tab
\S	\s取反

1.
import re
m = re.match('.', 'Cbc')
print(m.group())
#输出
C

2.
import re
m = re.match('s', 'sbc')
print(m.group())
#输出
s

3.
import re
m = re.match('[sS]', 'sbc')
print(m.group())        #注意，一般是要根据字符串来选择正确的正则表达式
#输出
s

4.
import re
m = re.match('[0-9]', '66city')
print(m.group())
#输出
6

5.
import re
m = re.match('\d', '66city')
print(m.group())
#输出
6

6.
import re
m = re.match('\D', 'city')
print(m.group())
#输出
c

7.
import re
m = re.match('\w', 'ity')
print(m.group())
#输出
i

8.
import re
m = re.match('\s', ' ity')
print(m.group())
#输出一个空格

数量匹配规则

字符	功能
*	匹配前一个字符出现0次多次或者无限次，可有可无，可多可少
+	匹配前一个字符出现1次多次或者无限次，直到出现一次
？	匹配前一个字符出现1次或者0次，要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m,}	匹配前一个字符至少出现m次
{m,n}	匹配前一个字符出现m到n次

*

import re
m = re.match('[A-Z][a-z]*', 'AAAAtsy')
print(m.group())
#输出
A
import re
m = re.match('[A-Z]*[a-z]', 'AAAAAatsy')
print(m.group())
#输出
AAAAAa
import re
m = re.match('[A-Z]*[a-z]*', 'AAAAAatsy')
print(m.group())
#输出
AAAAAatsy

+

import re
m = re.match('[A-Z][a-z]+', 'Aa')  #前一个字符不能是0次
print(m.group())
#输出
Aa

手机号匹配

import re
#手机号匹配，11位，数字，1开头，第二位35678中的一位
pattern = input(':')
sr = input(':')
m = re.match(pattern, sr)
print(m.group())

:1[35678]\d{9} #输入的规则
:13555545454  #输入的号码
13555545454  #输出的号码

表示边界

字符	功能
^	匹配字符串开头
$	匹配字符串的结尾
\b	匹配一个单词的边界
\B	匹配非单词边界（ \b取反）

import re

# ci ty university
sr = input(':')
pattern = input(':')

m = re.match(pattern, sr)
print(m.group())

:ci ty university   #要匹配的字符
:^\w+\s\bty\b\s\w+   #匹配的规则
ci ty university

匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中的字符作为一个分组
\num	引用分组num匹配到的字符串
(?P)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

import re

# ci ty university
sr = input(':')
pattern = input(':')

m = re.match(pattern, sr)
print(m.group())
#0~100的数
:22
:0$|[1-9]\d{0,1}$|100$   #规则
22

import re
sr = "<span><h1>hello world!</h1></span>"
pat = '<(.+)><(.+)>(.*)</\2></\1>)'
res = re.match(pat,sr)
print(res.group())
print(res.group(1))

re.search

re.search(pattern, str, flags = 0)
- 作用：扫描整个字符串，返回第一次成功匹配的对象
- 如果匹配失败，返回None。
- 参数：
  - pattern：匹配的正则表达式
  - string：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否匹配多行，是否区分大小写。

import re
print(re.search('yun','Aliyun is a.').group())
#输出
yun

re.match()和re.search()的区别

re.match() 从字符串的开头开始匹配
re.search() 扫描整个字符串，返回第一次成功匹配的对象

re.findall

作用：获取字符串所有匹配的字串，并以列表形式返回

re.finditer

作用：获取字符串所有匹配的字串，并返回一个迭代器

import re
for i in re.finditer('yun','Aliyun is a yun.'):
    print(i.group())
#输出
yun
yun

朕在卖萌

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python学习014_正则

文章目录正则引入案例1Python正则表达式基础re.match单字符匹配规则数量匹配规则表示边界匹配分组re.searchre.findallre.finditer正则正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。给定的...
复制链接

扫一扫