正则表达式

最新推荐文章于 2024-05-20 10:35:51 发布

沟通障碍的游戏废人

最新推荐文章于 2024-05-20 10:35:51 发布

阅读量129

点赞数 1

本文链接：https://blog.csdn.net/riku22/article/details/98314872

版权

文章目录

正则表达式

正则表达式

正则表达式，又称规则表达式，计算机科学的一个概念。正则表达式通常用来检索，替换马偕符合某个模式(规则)的文本。

给定的字符串是否符合正则表达式的过滤逻辑
通过正则表达式，从字符串中获得我们想要的特定的部分。

使用场景

爬虫
数据挖掘和分析

在Python中使用正则需要导入re包

import re

首先我们来看两个例子来体验一下正则表达式的威力吧：

引入案例

在字符串中找到数字23，5，67而不是2，3，5，6，7

import re
a =  'ab23fd5g67'

m = r'[0-9]+'
num=re.findall(m,a)
print(num)
#输出
['23', '5', '67']

如果不使用正则表达式就会很麻烦。

在Python 术语中，主要有两种方法完成模式匹配：“搜索”（searching），即在字符串任意部分中搜索匹配的模式；而“匹配”（matching）是指判断一个字符串能否从起始处全部或者部分地匹配某个模式。搜索通过search()函数或方法来实现，而匹配通过调用match()函数或方法实现。总之，当涉及模式时，全部使用术语“匹配”；我们按照Python如何完成模式匹配的方式来区分“搜索”和“匹配”。

python正则表达式的基础

字符	功能
.	匹配任意一个字符(除了\n)
[]	匹配[]中列举的字符串
\d	匹配数字0-9
\D	匹配非数字(\d取反)
\w	匹配字，A-Z，a-z，0-9，_
\W	\w取反

re.match(pattern, string, flags=0)
- 作用：从字符串的开头匹配一个模式
- 匹配成功，返回一个匹配成功的对象，否则返回None
- 参数说明：
  - pattern：要匹配的正则表达式
  - string：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否匹配多行，是否区分大小写。

import re

m = re.match('.', 's')
print(m.group())

m = re.match('.', 'd')
print(m.group())

m = re.match('.', 'City')
print(m.group())
#输出
s
d
C

re.group([group1,…]) 字符串或者元组
- 作用：获得一个或者多个分组截获的字符串
- 指定多个参数时就会以元组形式返回
- group1可以使用编号，也可以使用别名
- 编号0代表匹配整个字符串，默认返回group([0])
- 如果没有截获字符串，返回None。
- 如果截获了多次的组，返回最后一次截获的子串
re.groups([default=None]) tuple
- 作用：以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,…,last)
- 如果没有截获字符串的组，默认返回None
re.search(pattern, str, flags =0)
- 作用:扫描整个字符串,返回第一次成功匹配的对象
- 如果匹配失败,返回None
- 参数：
  - pattern：要匹配的正则表达式
  - string：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否匹配多行，是否区分大小写。
- re.match()和re.search()的区别：
  - re.match()从字符串开头开始匹配，如果匹配失败，None
  - re.search()匹配整个字符串直到找到一个匹配，如果匹配失败，None
re.findall(pattern, str, flags=0)
- 作用：获取所有字符串中匹配的子串，并以列表形式返回

import re

print(re.findall('yun','Aliyun is a yun.'))
#输出
['yun', 'yun']

re.finditer(pattern,str,flags=0)
- 作用：获取所有字符串中匹配的子串，并以迭代器形式返回

import re

print(list(re.finditer('yun','Aliyun is a yun.')))

for i in re.finditer('yun','Aliyun is a yun.'):
    print(i.group())
#输出
[<re.Match object; span=(3, 6), match='yun'>, <re.Match object; span=(12, 15), match='yun'>]
yun
yun

数量匹配规则

字符	功能
*	匹配前一个字符出现0次或者无限次,可有可无,可多可少
+	匹配前一个字符出现1次或者无限次,一直到出现一次
?	匹配前一个字符出现1次或者0次,要么1次,要么没有
{m}	匹配前一个字符出现m次
{m,}	匹配前一个字符至少出现m次
{m,n}	匹配前一个字符出现m到n次

import re

m = re.match('[A-Z][a-z]*', 'AcitySDrd')
print(m.group())
#输出 Acity
m = re.match('[A-Z][a-z]*', 'AAcitySDrd')
print(m.group())
#输出 A  因为[A-Z]只能匹配一个，第二个位置开始是任意多个小写字母
m = re.match('[A-Z][a-z]?', 'AcitySDrd')
print(m.group())
#输出  Ac
m = re.match('[A-Z][a-z]?', 'AAcitySDrd')
print(m.group())
#输出  A
m = re.match('[A-Z][a-z]{4}', 'AcitySDrd')
print(m.group())
#输出  Acity
m = re.match('[A-Z][a-z]{3}', 'AcitySDrd')
print(m.group())
#输出  Acit
m = re.match('[A-Z][a-z]{3,10}', 'AcitySDrd')
print(m.group())
#输出  Acity

#匹配手机号
import re
pattern=input('请输入匹配规则：') #1[35678]\d{9}
sr=input('请输入匹配字符串：')    #13000000000
m = re.match(pattern,sr)
print(m.group())

表示边界

字符	功能
^	匹配字符串开头
$	匹配字符串的结尾
\b	匹配一个单词的边界
\B	匹配非单词边界

import re
pattern='^\w+\s\\bty\\b\s\w+'
sr='ci ty university'
m = re.match(pattern,sr)
print(m.group())
#输出
ci ty university

匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中的字符作为一个分组
\num	引用分组num匹配到的字符串
(?P<name>)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

#匹配1-100的数
import re

pattern=r'[1-9]\d{0,1}$|100$|0$'
sr='100'
m = re.match(pattern,sr)
print(m.group())
#输出
100

import re

sr = '<h1>hello world!1</h1><h1>hello world!2</h1><h1>hello world!3</h1>'
pattern = '<h1>(.*)</h1><h1>(.*)</h1><h1>(.*)</h1>'
m = re.match(pattern, sr)
print(m.group())
print(m.group(1))
print(m.groups())
#输出
<h1>hello world!1</h1><h1>hello world!2</h1><h1>hello world!3</h1>
hello world!2
('hello world!1', 'hello world!2', 'hello world!3')

import re

sr = '<span><h1>hello world!</h1></span>'
pattern = r'<(\D{4})><(.{2})>(.*)</\2></\1>'
m = re.match(pattern, sr)
print(m.group())
print(m.group(1))
print(m.groups())
#输出
<span><h1>hello world!</h1></span>
span
('span', 'h1', 'hello world!')

沟通障碍的游戏废人

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式

文章目录正则表达式引入案例python正则表达式的基础数量匹配规则表示边界匹配分组正则表达式正则表达式，又称规则表达式，计算机科学的一个概念。正则表达式通常用来检索，替换马偕符合某个模式(规则)的文本。给定的字符串是否符合正则表达式的过滤逻辑通过正则表达式，从字符串中获得我们想要的特定的部分。使用场景爬虫数据挖掘和分析在Python中使用正则需要导入re包import r...
复制链接

扫一扫