python中正则表达式是什么意思_搞清楚 Python 正则表达式，简单易懂看这一篇就够了...-CSDN博客

本文链接：https://blog.csdn.net/weixin_39715460/article/details/112828794

本文来讲讲看似高大上的正则表达式！

作用简介

学习一样东西，咱们首先要搞明白这东西在什么情况下使用，用来达到什么效果！

否则一上来就讲语法和规则，那基本就晕菜了！

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

这句话太拗口，看个小小的例子就懂了：假设我们现在有一篇文章，是介绍很多不同网站作用的，那我如果想要看看，这篇文章里面介绍了哪些网站，那就可以用到正则表达式。

# 首先引入我们的正则表达式模块 re>>> import re# 然后准备好我们需要搜索的字符串>>> txt = '今天我们来讨论 www.baidu.com 这个网站，这个网站是用来搜索的！'# 这里我们用 re.compile( ) 来设定需要查找的格式，即“正则表达式”。>>> pattern = re.compile(r'www.*com')# 然后我们就可以按照这个格式去文本中搜索啦！>>> result = pattern.findall(txt)# 最后我们打印结果，就看到了我们想要查找的网址！>>> print(result)['www.baidu.com']

首先，这里我们用到 Python 模块就是 re，这个模块就是用来做 “正则表达式” 相关操作滴！

然后用该模块下的 re.compile( ) 函数设定 “模式”！(返回值是一个)re.compile(pattern[, flags])

pattern : 一个字符串形式的正则表达式

flags：可选，表示匹配模式。

这里我们知道，大多数网址都是以 “www” 开头，以 “com” 结尾的，所以我希望按照这个模式去找，找出来的就是网址了！

目的分类

通常有 4 种：定位我们想要寻找的东西所在位置：定位

把指定的东西替换成别的：替换

显示我们想找的具体信息：显示

把对象字符串按照我们想要的进行分割：分割

之前的案例就是属于第 3 种。

案例

一、定位

继续上面的案例

>>> print(re.match('我们', txt, flags=0))None>>> print(re.match('今天', txt, flags=0))

re.match 函数，是用来从开头匹配一个模式，成功就返回位置，比如这里的 ‘今天’ 显示的 span=(0, 2)，如果失败，比如这里的 '我们' 就显示 None。re.match(pattern, string, flags=0)

pattern：匹配的正则表达式

string：要匹配的字符串。

flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等。本文结尾附上了可选标志列表。

还有另外一种寻找位置的方法：

>>> print(re.search('我们', txt, flags=0))>>> print(re.search('今天', txt, flags=0))

re.search 函数，扫描整个字符串并返回第一个成功的匹配。re.search(pattern, string, flags=0)

二、替换

继续上面的案例：

>>> import re>>> txt = '今天我们来讨论 www.baidu.com 这个网站，这个网站是用来搜索的！'>>> pattern = re.compile(r'www.*com')>>> new = re.sub(pattern, 'www.google.com', txt, count=0, flags=0)>>> print(new)今天我们来讨论 www.google.com 这个网站，这个网站是用来搜索的！

我们就把里面的网址给替换掉了！

re.sub 函数，用于替换字符串中的匹配项。re.sub(pattern, repl, string, count=0, flags=0)

pattern : 正则中的模式字符串。

repl : 替换的字符串，也可为一个函数。

string : 要被查找替换的原字符串。

count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

flags : 匹配模式。

三、显示

最初案例我们用到的是 re.findall 函数。

re.findall 函数，在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，包含每一个匹配到具体内容，如果没有找到匹配的，则返回空列表。

re.findall(string[, pos[, endpos]])

string：待匹配的字符串。

pos：可选参数，指定字符串的起始位置，默认为 0。

endpos：可选参数，指定字符串的结束位置，默认为字符串的长度。

这里注意：后面的参数是 string，匹配规则需要提前用 re.compile() 函数进行设定。

所以综合起来是这样的：re.compile(pattern[, flags]).findall(string[, pos[, endpos]])

另外一种类似的是 re.finditer 函数。

re.finditer 函数，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

re.finditer(pattern, string, flags=0)

来看案例：>>> txt = '今天我们来讨论 www.baidu.com 和 www.google.com，还有 www.sina.com 吧！'>>> find_txt = re.finditer(r'www.*?com',txt)>>> for each in find_txt:print(each.group())www.baidu.comwww.google.comwww.sina.com

这里需要注意的是用了一个小技巧，就是 .*?，这里的问号 ? 表示的是非贪婪匹配，也就是匹配到了满足条件的即可，不再往后看了，如果改用贪婪模式：

>>> find_txt = re.finditer(r'www.*com',txt)>>> for each in find_txt: print(each.group()) www.baidu.com 和 www.google.com，还有 www.sina.com

这样可就不是我们想要的了，所以大家可以灵活运用得到想要的结果！

四、分割

这里我们用到 re.split 函数。

re.split 函数，按照能够匹配的子串将字符串分割后返回列表。

这其实和 Python 的字符串的 spilt( ) 方法非常类似，但是加上了正则表达式，那么功能肯定是更加强大了！re.split(pattern, string[, maxsplit=0, flags=0])

pattern：匹配的正则表达式。

string：要匹配的字符串。

maxsplit：分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。

flags：正则表达式的匹配方式。

看案例：