Python正则表达式

G.ooo

于 2022-11-07 14:49:51 发布

阅读量923

点赞数

分类专栏： Python 文章标签： python 正则表达式开发语言

本文链接：https://blog.csdn.net/a328062954/article/details/127730895

版权

Python 专栏收录该内容

20 篇文章 4 订阅

订阅专栏

Python正则表达式

1.点-匹配所有字符
2.星号-重复匹配任意次
3.加号-重复匹配多次
4.问号-匹配0-1次
5.花括号-匹配指定次数
6.贪婪模式和非贪婪模式
7.对元字符的转义
8.方括号-匹配几个字符之一
9.起始、结尾位置和单行、多行模式
10.竖线-匹配两者之一
11.括号-组选择

校验正则: https://regex101.com/

1.点-匹配所有字符

. 表示要匹配除了换行符之外的任何 单个 字符。

content = """苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
p = re.compile(".色")
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

2.星号-重复匹配任意次

* 表示匹配前面的子表达式任意次，包括0次。

content = """苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
p = re.compile("，.*")
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

3.加号-重复匹配多次

+ 表示匹配前面的子表达式一次或多次，不包括0次。

content = """苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
p = re.compile("，.+")
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

4.问号-匹配0-1次

? 表示匹配前面的子表达式0次或1次

content = """苹果，绿色的
橙子，橙色的
香蕉，黄色的
乌鸦，黑色的
猴子，，"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
p = re.compile("，.?")
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

5.花括号-匹配指定次数

花括号表示前面的字符匹配 指定的次数

content = """红彤彤，绿油油，黑乎乎乎乎，绿油油油油"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
p = re.compile("油{2,4}")
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

6.贪婪模式和非贪婪模式

我们要把下面的字符串中的所有html标签都提取出来，

source = '<html><head><title>Title</title>'

得到这样的一个列表

['<html>', '<head>', '<title>', '</title>']

<.>这样写是不对的，因为在python中 . 都是贪婪的，会尽可能多的向后匹配，

为了解决这问题就要使用非贪婪模式，只需要加？即可

content = """<html><head><title>Title</title>"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
p = re.compile("<.*?>")
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

7.对元字符的转义

反斜杠 \ 在正则表达式中有多种用途。

所谓元字符的转义，就是让元字符失去原来的含义

content = """苹果.是绿色的
橙子.是橙色的
香蕉.是黄色的"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
p = re.compile(".*\.")
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

\d 匹配0-9之间任意一个数字字符，等价于表达式 [0-9]

\D 匹配任意一个不是0-9之间的数字字符，等价于表达式 [^0-9]

\s 匹配任意一个空白字符，包括空格、tab、换行符等，等价于表达式 [\t\n\r\f\v]

\S 匹配任意一个非空白字符，等价于表达式 [^ \t\n\r\f\v]

\w 匹配任意一个文字字符，包括大小写字母、数字、下划线，等价于表达式 [a-zA-Z0-9_]

缺省情况也包括 Unicode文字字符，如果指定 ASCII 码标记，则只包括ASCII字母

\W 匹配任意一个非文字字符，等价于表达式 [^a-zA-Z0-9_]

8.方括号-匹配几个字符之一

9.起始、结尾位置和单行、多行模式

^ 表示匹配文本的 开头 位置。

正则表达式可以设定 单行模式 和 多行模式

如果是 单行模式 ，表示匹配 整个文本 的开头位置。

如果是 多行模式 ，表示匹配 文本每行 的开头位置。

python中默认是单行模式

content = """001-苹果价格-60，
002-橙子价格-70,
003-香蕉价格-80,"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
# 默认是单行模式，如果要找每一行开头的内容，则需要开启多行模式re.MULTILINE或者re.M
p = re.compile("^\d+-", re.MULTILINE)
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

$ 表示匹配文本的 结尾 位置。

如果是 单行模式 ，表示匹配 整个文本 的结尾位置。

如果是 多行模式 ，表示匹配 文本每行 的结尾位置。

content = """001-苹果价格-60
002-橙子价格-70
003-香蕉价格-80"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
# 默认是单行模式，如果要找每一行开头的内容，则需要开启多行模式re.MULTILINE或者re.M
p = re.compile("-\d*$", re.MULTILINE)
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

10.竖线-匹配两者之一

竖线表示匹配前者或后者

content = """001-苹果价格-60
002-橙子价格-70
003-香蕉价格-80"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
p = re.compile("橙|蕉|7")
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

11.括号-组选择

括号称之为正则表达式的组选择。是从正则表达式匹配的内容里面扣取出其中的某些部分

content = """苹果，苹果是绿色的
橙子，橙子是橙色的
香蕉，香蕉是黄色的"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
p = re.compile("(.*)，")
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)

content = """张三，手机号码15945678901
李四，手机号码13945677701
王二，手机号码13845666901"""
# re模块是python的内置模块，提供了对于正则表达式的支持
import re
# 正则表达式
p = re.compile("(.*)，\D*(\d*)")
# 在content里面使用正则表达式查找内容，将找到的内容赋值给变量
message = p.findall(content)
print(message)