01、正则表达式学习（Python 前置知识）

最新推荐文章于 2023-05-23 18:55:51 发布

CrazyDragon_King

最新推荐文章于 2023-05-23 18:55:51 发布

阅读量365

点赞数 1

分类专栏： python 正则表达式 RE 文章标签： python 正则表达式学习

本文链接：https://blog.csdn.net/qq_40734247/article/details/125922571

版权

python 同时被 2 个专栏收录

30 篇文章

订阅专栏

正则表达式 RE

9 篇文章

订阅专栏

本文档介绍了Python中正则表达式的使用，包括match、search、sub、findall、finditer和split等函数。作者建议通过re.compile创建Pattern对象来进行更正规的操作，并给出了示例代码演示如何查找和替换字符串中的数字。文章强调理解正则表达式的基本函数是进一步学习的关键，并提供了一个通用的模板以供后续学习参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python 正则表达式

最近开始抽时间系统性的学习正则表达式的知识，趁此机会把在学习过程中的内容记录下来，希望可以帮到其他想要了解相关内容的朋友。正则表达式本身是独立于编程语言的知识，但是它又依附于编程语言，基本上我们所使用的编程语言都提供了对它的实现，当然了，各家的实现也是有一些差异的，有的支持的功能多一点，有的支持的少一点。因为我目前的工作是使用 Python，所以接下来的内容，都会使用 Python 代码进行实现。因为正则表达式是实践中使用广泛的工具，所以脱离语言的学习我认为是不靠谱的。如果，不会 Python 也没有关系，我是有计划，将这个系列扩展到我熟悉的其它语言的，不过路要一步一步的走，先完成 Python 的这块内容再说吧。

学习资料参考：
《正则表达式必知必会》
Python3 正则表达式菜鸟教程
 Python 正则表达式官方文档

简要说明：
第一本书，我个人强烈推荐，这个系列的书都非常不错，推荐购买一本作为学习时枕边书。第二个菜鸟教程是学习基本的 API 的使用。第三个是 Python 的官方文档中关于正则表达式的模块（提供了国际化翻译，直接看英文的也不错，更加原汁原味！）。

正则表达式的函数介绍

正则表达式主要API关系图

这个图是我个人总结的，我觉得基本上把这里的函数的关系弄清楚了，它们的作用是：

match 从文本的开头匹配正则表达式，返回匹配的对象，没有就返回 None
search 在整个文本中匹配正则表达式，返回第一个匹配的对象，没有就返回 None。
sub 利用正则表达式进行文本替换（正则表达式的功能：搜索和替换）
findall 从整个文本中匹配正则表达式，以列表的形式返回所有匹配的结果。
finditer 从整个文本中匹配正则表达式，以迭代器的形式返回所有匹配的结果。
split 利用正则表达式切分文本

这里可以看出，·re· 下面有很多立即可以使用的函数，然后 re.compile 下面有很多同名的函数。直接在 ·re· 模块下的是官方提供方便使用的函数，通过 re.compile 来使用是最正统的方式。所以，接下来的内容，我基本上智慧使用 re.compile 及其下的方法来实现。

`re.compile` 函数

compile 函数用于编译正则表达式，生成一个正则表达式（Pattern）对象，供 match() 和 search() 以及其它函数使用。

语法：

re.compile(pattern[, flags])

参数：

pattern: 一个字符串形式的正则表达式
flags 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
- re.I 忽略大小写
- re.L 多行模式
- re.S 即为 '.' 并且包括换行符在内的任意字符（'.' 不包括换行符）
- re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖 Unicode 字符属性数据库
- re.X 为了增加可读性，忽略空格和 ‘#’ 后面的注释

示例：查找字符串中的所有数字

import re

s = 'runoob 123 google 456'
result1 = re.findall(r'\d+', s)

pattern = re.compile(r'\d+') # 查找数字
result2 = pattern.findall(s)
result3 = pattern.findall(s, 0, 20)


print(result1)
print(result2)
print(result3)


"""
output:
[‘123’， ‘456’]
[‘123’， ‘456’]
[‘123’， ‘45’]
"""

学习模板

接下来我们要逐渐学习正则表达的内容，这些内容是非常有趣的！Interesting and Excited！

这里给出一个接下来会一直使用的示例模板，这个模板是这篇博客最重要的东西了，之后的内容都会基于它进行扩展。所以，请好好理解它。

import re

# 需要进行搜索或者匹配的文本
text = """I love you yesterday and today."""

# 正则表达式
regexp = r'love'


# 编译（对正则表达式进行编译获取 Pattern Object）
pattern = re.compile(regexp)

# 搜索
m = pattern.search(text)
if m:
    print("匹配对象: ", m)
    print("匹配的字符串: ", m.group())
    print("匹配的开始位置: ", m.start())
    print("匹配的结束位置: ", m.end())
    print("匹配位置的元组: ", m.span())
else:
    print("No match!")

# 替换
new_text = pattern.sub("hate", text)
print(new_text)

在这里插入图片描述

注意： 正则表达式 regexp 在开始前会使用 r 前缀，这样做的目的是为了避免在正则表达式中大量使用转义字符，破坏了整体的可读性。

Python 的正则表达式包含了很多非常易用的方法，但是这里我并不会过多介绍它们。我们会一直使用上面这种模式，因为那些易用的方法只是对它的一种封装，学习使用这种基本的方式自然就会其它的了。

匹配对象可以获取有关正则表达式的信息，它最重要的方法和属性是：

方法/属性	目的
group()	返回正则匹配的字符串
start()	返回匹配的开始位置
end()	返回匹配的结束位置
span()	返回包含匹配 (start, end) 位置的元组