python 正则

最新推荐文章于 2021-12-13 18:11:08 发布

le0chang

最新推荐文章于 2021-12-13 18:11:08 发布

阅读量253

点赞数

分类专栏： python 文章标签： python 正则表达式

本文链接：https://blog.csdn.net/le0chang/article/details/119116404

版权

python 专栏收录该内容

4 篇文章 2 订阅

订阅专栏

一、re.complie

1.1 介绍
re模块中有re.match、re.serch、re.findall,也是最常用的
re.compile()是用来优化正则的，它将正则表达式转化为对象，re.search(pattern, string)的调用方式就转换为 pattern.search(string)的调用方式，多次调用一个正则表达式就重复利用这个正则对象，可以实现更有效率的匹配
re.compile()语法格式如下：

compile(pattern[,flags] )

pattern : 一个字符串形式的正则表达式
flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：

1).re.I(re.IGNORECASE): 忽略大小写
2).re.M(MULTILINE): 多行模式，改变'^'和'$'的行为
3).re.S(DOTALL): 点任意匹配模式，改变'.'的行为
4).re.L(LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
5).re.U(UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
6).re.X(VERBOSE): 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释

1.2使用
re.compile()生成的是正则对象，单独使用没有任何意义，需要和findall(), search(), match(）搭配使用
1、结合findall()
在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

import re

content = 'Hello, I am Jerry, from Chongqing, a montain city, nice to meet you……'
reg = re.compile('\w*o\w*')
x = reg.findall(content)
print(x)  # ['Hello', 'from', 'Chongqing', 'montain', 'to', 'you']

2、结合match()
re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。
我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

import re

reg = re.compile(r'^@.*? RPA\[([0-9a-f]+)\]')
msg = '@www.pu RPA[7886481]: 收到录单任务，手机：1580vvvv18950。任务处理中，请稍候。'
mtch = reg.match(msg)
print(mtch)  # <re.Match object; span=(0, 20), match='@www.pu RPA[7886481]'>
print(mtch.group())  #@www.pu RPA[7886481]
print(mtch.group(1))  # 7886481  # 分组内内容
print(mtch.start(1))  # 12
print(mtch.end(1))  # 19
print(mtch.span(1))  #(12, 19)  # 分组内的元素范围
print(mtch.span())  #(0, 20)

3、结合search()
re.search 扫描整个字符串并返回第一个成功的匹配。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

import re

content = 'Hell, I am Jerry, from Chongqing, a montain city, nice to meet you……'
regex = re.compile('\w*o\w*')
z = regex.search(content)
print(z)  # <re.Match object; span=(18, 22), match='from'>
print(z.group()) # from
print(z.span())  #(18, 22)

二、re.finditer

和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

import re
 
it = re.finditer(r"\d+","12a32bc43jf3") 
for match in it: 
    print (match.group() )
>12 
>32 
>43 
>3

使用toolz模块

from toolz import last
it = re.finditer(pattern, text)
last(it).span()

三、re.sub

Python 的re模块提供了re.sub用于替换字符串中的匹配项。

re.sub(pattern, repl, string, count=0, flags=0)

参数：

pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。
flags : 编译时用的匹配模式，数字形式。
前三个为必选参数，后两个为可选参数。

#!/usr/bin/python3
import re
 
phone = "2004-959-559 # 这是一个电话号码"
 
# 删除注释
num = re.sub(r'#.*$', "", phone)
print ("电话号码 : ", num)
 
# 移除非数字的内容
num = re.sub(r'\D', "", phone)
print ("电话号码 : ", num)

repl 参数是一个函数
以下实例中将字符串中的匹配的数字乘于 2：

#!/usr/bin/python
 
import re
 
# 将匹配的数字乘于 2
def double(matched):
    value = int(matched.group('value'))
    return str(value * 2)
 
s = 'A23G4HFD567'
print(re.sub('(?P<value>\d+)', double, s))

返回 A46G8HFD1134

四、re.split

split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

re.split(pattern, string[, maxsplit=0, flags=0])

import re
re.split('\W+', 'runoob, runoob, runoob.')
>['runoob', 'runoob', 'runoob', '']

re.split('(\W+)', ' runoob, runoob, runoob.') 
>['', ' ', 'runoob', ', ', 'runoob', ', ', 'runoob', '.', '']

re.split('\W+', ' runoob, runoob, runoob.', 1) 
>['', 'runoob, runoob, runoob.']

re.split('a*', 'hello world')   # 对于一个找不到匹配的字符串而言，split 不会对其作出分割
> ['hello world']

五、常用表达式

[abc]匹配中括号内的任意一个参数
(abc) 分组

le0chang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 正则

一、re.complie1.1 介绍re模块中有re.match、re.serch、re.findall,也是最常用的re.compile()是用来优化正则的，它将正则表达式转化为对象，re.search(pattern, string)的调用方式就转换为 pattern.search(string)的调用方式，多次调用一个正则表达式就重复利用这个正则对象，可以实现更有效率的匹配re.compile()语法格式如下：compile(pattern[,flags] ) pattern : 一个字
复制链接

扫一扫