python——正则表达式

最新推荐文章于 2022-05-17 00:40:55 发布

宏彦の博客

最新推荐文章于 2022-05-17 00:40:55 发布

阅读量343

点赞数

分类专栏： python 文章标签： python 正则表达式

本文链接：https://blog.csdn.net/cyq129445/article/details/83338983

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

要使用正则表达式就需要将re模块导入

import re

首先就是创建一个正则表达式对象

向re.compile()传入一个字符串值，表示正则表达式，它将返回一个Regex 模式对象（或者就简称为Regex 对象）。

有了这个对象就可以调用这个模块当中的匹配函数了

首先介绍的就是search()方法

它查找传入的字符串，寻找该正则表达式的所有匹配。如果字符串中没有找到该正则表达式模式，search()方法将返回None。如果找到了该模式，search()方法将返回一个Match 对象。Match 对象有一个group()方法，它返回被查找字符串中实际匹配的文本。

关于这个group（）还有一些其他的用法

当我们的正则表达式添加了括号进行分组的时候，可以使用group()匹配对象方法，从一个分组中获取匹配的文本。

正则表达式字符串中的第一对括号是第1 组。第二对括号是第2 组。向group()匹配对象方法传入整数1 或2，就可以取得匹配文本的不同部分。向group()方法传入0 或不传入参数，将返回整个匹配的文本。

import re

phone_number=re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')

txt=phone_number.search('My number is 415-555-4242.')

print('Phone number is:'+txt.group())

》》

415-555-4242

import re

phone_number1 = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)')

mo = phone_number1.search('My number is 415-555-4242.')

print(mo.group())

print(mo.group(1))

print(mo.group(2))

print(mo.group(0))

》》

415-555-4242

415

555-4242

415-555-4242

其中有一个需要注意的就是正则表达式里面的符号注意一定要统一用英文符号（要不就会找不到匹配但是你要是没有去判断程序就直接会弹出错误）

eg：AttributeError: 'NoneType' object has no attribute 'group'

我们在有了大致的理解以后，就来系统的看下正则表达式

1.管道

当我们想要匹配许多表达式中的一个时，就可以使用“管道”-》“字符 |”

如果有好几个匹配到，第一个出现的匹配文本将作为Match对象返回

关于具体的使用可以来看下例子：

(r'Batman|Tina Fey')

(r'Bat(man|mobile|copter|bat)')

2.问号——可选匹配

当我们想匹配的模式是可选的。就是说，不论这段文本在不在，正则表达式都会认为匹配。字符?表明它前面的分组在这个模式中是可选的。

(r'Bat(wo)?man')

它其实就相当于(r'Batwoman|Batman')

3.星号——任意次匹配

*（称为星号）意味着“匹配零次或多次”，即星号之前的分组，可以在文本中出现任意次。它可以完全不存在，或一次又一次地重复。

4.加号——至少一次匹配

+（加号）则意味着“匹配一次或多次”。星号不要求分组出现在匹配的字符串中，但加号不同，加号前面的分组必须“至少出现一次”。这不是可选的。

5.花括号——匹配特定次数

如果想要一个分组重复特定次数，就在正则表达式中该分组的后面，跟上花括号包围的数字。例如，正则表达式(Ha){3}将匹配字符串'HaHaHa'，但不会匹配'HaHa'，因为后者只重复了(Ha)分组两次。除了一个数字，还可以指定一个范围，即在花括号中写下一个最小值、一个逗号和一个最大值。

例如，正则表达式(Ha){3,5}将匹配'HaHaHa'、'HaHaHaHa'和'HaHaHaHaHa'。

也可以不写花括号中的第一个或第二个数字，不限定最小值或最大值。

例如，(Ha){3,}将匹配3 次或更多次实例，(Ha){,5}将匹配0 到5 次实例。

到了这个地方就有一个问题类似于(Ha){3,5}的例子，为什么Match 对象的group()调用会返回'HaHaHaHaHa'，而不是更短的可能结果。这是因为python的正则表达式默认是“贪心”的，这表示在有二义的情况下，它们会尽可能匹配最长的字符串。花括号的“非贪心”版本匹配尽可能最短的字符串，即在结束的花括号后跟着一个问号

(r'(Ha){3,5}')

(r'(Ha){3,5}?')

6.字符分类

缩写字符分类表示

\d 0 到9 的任何数字

\D 除0 到9 的数字以外的任何字符

\w 任何字母、数字或下划线字符（可以认为是匹配“单词”字符）

\W 除字母、数字和下划线以外的任何字符

\s 空格、制表符或换行符（可以认为是匹配“空白”字符）

\S 除空格、制表符和换行符以外的任何字符

7.方括号——自定义字符

可以使用短横表示字母或数字的范围