python——正则表达式(re模块)详解

最新推荐文章于 2024-08-19 21:44:42 发布

geinvse_seg

最新推荐文章于 2024-08-19 21:44:42 发布

阅读量928

点赞数

分类专栏：前端 html 文章标签：正则表达式 python 前端

本文链接：https://blog.csdn.net/geinvse_seg/article/details/123194419

版权

本文深入探讨Python的re模块，讲解如何使用正则表达式进行字符串匹配，涵盖re.match、re.compile、re.search等多个函数，以及贪婪与非贪婪模式，并通过实例解析各种字符和操作符的功能。

摘要由CSDN通过智能技术生成

在Python中需要通过正则表达式对字符串进匹配的时候，可以使个python自带的模块，名字为re。

正则表达式的大致匹配过程是：
1.依次拿出表达式和文本中的字符比较，
2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。
3.如果表达式中有量词或边界，这个过程会稍微有一些不同。

r：在带有 'r' 前缀的字符串字面值中，反斜杠不必做任何特殊处理。因此 r" " 表示包含 '' 和 'n' 两个字符的字符串，而 " " 则表示只包含一个换行符的字符串。

re模块的使用：import re

re.match函数

语法：re.match(pattern, string, flags=0)

pattern

匹配的正则表达式

string

要匹配的字符串

flags

标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

re.I 忽略大小写
re.L 表示特殊字符集 w, W, , B, s, S 依赖于当前环境
re.M 多行模式
re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
re.U 表示特殊字符集 w, W, , B, d, D, s, S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性，忽略空格和 # 后面的注释

尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。匹配成功re.match方法返回一个匹配的对象。

如果上步匹配到数据的话，可以使group法来提取数据。以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

group()用来提出分组截获的字符串**，**（）用来分组，group() 同group（0）就是匹配正则表达式整体结果，group(1) 列出第一个括号匹配部分，group(2) 列出第二个括号匹配部分，group(3) 列出第三个括号匹配部分。没有匹配成功的，re.search()返回None。

举例：

>>> import re
>>> result = re.match("itcast","itcast.cn")
>>> result.group()
'itcast'

从string头开始匹配pattern完全可以匹配，pattern匹配结束，同时匹配终止，后面的.cn不再匹配，返回匹配成功的信息。

匹配单个字符

字符

功能

位置

匹配任意1个字符（除了）

[ ]

匹配[ ]中列举的字符

匹配数字，即0-9

可以写在字符集[…]中

匹配数字，即不是数字

可以写在字符集[…]中

匹配空，即空格，tab键

可以写在字符集[…]中

匹配空字符

可以写在字符集[…]中

匹配单词字符，即a-z、A-Z、0-9、_

可以写在字符集[…]中

匹配单词字符

可以写在字符集[…]中

w 匹配单词字符，即a-z、A-Z、0-9、_

匹配单词字符

[…]字符集，对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出，也可以给出范围，比如[abc]和[a-c]，第一个字符如果是^{表示取反。所有特殊字符（比如"]""-""}"）在字符集中都失去原来的含义，如要使用可把"]""-“放在第一个字符，”^"放在非第一个字符。

举例：

import re
ret = re.match(".","M")
print(ret.group())
ret = re.match("t.o","too")
print(ret.group())
ret = re.match("t.o","two")
print(ret.group())
# 如果hello的?字符?写，那么正则表达式需要?写的h
ret = re.match("h","hello Python")
print(ret.group())
# 如果hello的?字符?写，那么正则表达式需要?写的H
ret = re.match("H","Hello Python")
print(ret.group())
# ??写h都可以的情况
ret = re.match("[hH]","hello Python")
print(ret.group())
ret = re.match("[hH]","Hello Python")
print(ret.group())
ret = re.match("[hH]ello Python","Hello Python")
print(ret.group())
# 匹配0到9的多种写法
ret = re.match("[0123456789]Hello Python","7Hello Python")
print(ret.group())
ret = re.match("[0-9]Hello Python","7Hello Python")
print(ret.group())
# 匹配0到3和5-9
ret = re.match("[0-35-9]Hello Python","7Hello Python")
print(