python|正则表达式|re函数

最新推荐文章于 2024-10-03 09:00:56 发布

和呵呵和

最新推荐文章于 2024-10-03 09:00:56 发布

阅读量118

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/qq_45947924/article/details/118967030

版权

python3中内置re正则表达式

注

通配符默认是贪婪模式，在通配符后加？号使用非贪婪模式
两者区别如下

>>> re.findall("p+","p pp ppp pppp")
['p', 'pp', 'ppp', 'pppp']
>>> re.findall("p+?","p pp ppp pppp")
['p', 'p', 'p', 'p', 'p', 'p', 'p', 'p', 'p', 'p']

使用
import re
即可导入模块

正则表达式

们判断一个字符串是否是合法的Email的方法是：

创建一个匹配Email的正则表达式；
用该正则表达式去匹配用户的输入来判断是否合法。

因为正则表达式也是用字符串表示的，所以，我们要首先了解如何用字符来描述字符。

在正则表达式中，如果直接给出字符，就是精确匹配。用\d可以匹配一个数字，\w可以匹配一个字母或数字，所以：

‘00\d’可以匹配’007’，但无法匹配’00A’；
‘\d\d\d’可以匹配’010’；
‘\w\w\d’可以匹配’py3’；
.可以匹配任意字符，所以：

'py.‘可以匹配’pyc’、‘pyo’、'py!'等等。
要匹配变长的字符，在正则表达式中，用*表示任意个字符（包括0个），用+表示至少一个字符，用?表示0个或1个字符，用{n}表示n个字符，用{n,m}表示n-m个字符：

来看一个复杂的例子：\d{3}\s+\d{3,8}。

我们来从左到右解读一下：

\d{3}表示匹配3个数字，例如’010’；

\s可以匹配一个空格（也包括Tab等空白符），所以\s+表示至少有一个空格，例如匹配’ ‘，’ '等；

\d{3,8}表示3-8个数字，例如’1234567’。

综合起来，上面的正则表达式可以匹配以任意个空格隔开的带区号的电话号码。

如果要匹配’010-12345’这样的号码呢？由于’-‘是特殊字符，在正则表达式中，要用’'转义，所以，上面的正则是\d{3}-\d{3,8}。

但是，仍然无法匹配’010 - 12345’，因为带有空格。所以我们需要更复杂的匹配方式。

进阶
要做更精确地匹配，可以用[]表示范围，比如：

[0-9a-zA-Z_]可以匹配一个数字、字母或者下划线；

[0-9a-zA-Z_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如’a100’，‘0_Z’，'Py3000’等等；

[a-zA-Z_][0-9a-zA-Z_]*可以匹配由字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串，也就是Python合法的变量；

[a-zA-Z_][0-9a-zA-Z_]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）。

A|B可以匹配A或B，所以(P|p)ython可以匹配’Python’或者’python’。

^{表示行的开头，}\d表示必须以数字开头。

$KaTeX parse error: Undefined control sequence: \d at position 8: 表示行的结束，\̲d̲$ 表示必须以数字结束。

你可能注意到了，py也可以匹配’python’，但是加上^py$就变成了整行匹配，就只能匹配’py’了。

python中re函数

re.match()
从第一个开始匹配，遇到不匹配的返回none

>>> text = "hehehe"
>>> re.match("he",text)
<_sre.SRE_Match object; span=(0, 2), match='he'>
>>> re.match("ehe",text)
>>>

re.search()
在全文中匹配，只要有匹配的即可

>>> re.search("he",text)
<_sre.SRE_Match object; span=(0, 2), match='he'>
>>> re.search("ehe",text)
<_sre.SRE_Match object; span=(1, 4), match='ehe'>

re.findall()
查找所有匹配项，返回一个列表

>>> re.findall("he",text)
['he', 'he', 'he']

re.finditer()
查找所有匹配项，返回一个迭代器
注意这里i是一个match对象

>>> for i in re.finditer("he",text):
...     i.group()
...
'he'
'he'
'he'

re.sub()
替换函数，将匹配到的项替换成指定项

>>> re.sub("he","heihei",text)
'heiheiheiheiheihei'

re.compile()
正则编译，先把正则表达式的规则编译好，再去匹配项

>>> reg = re.compile("py")
>>> text = "woaipython python python"
>>> reg.findall(text)
['py', 'py', 'py']

和呵呵和

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫