Python学习随笔---正则表达式

最新推荐文章于 2022-02-14 15:34:11 发布

名字一会再想

最新推荐文章于 2022-02-14 15:34:11 发布

阅读量186

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/Z_X_L_zxl/article/details/79732190

版权

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

基础

\d ：匹配一个数字
\w ：匹配一个字母或数字
\s ：至少有一个空格
. ：可以匹配任意字符
* ：表示任意个字符（包括0个）
+ ：表示至少一个字符
？：表示0个或1个字符
{n} ：表示n个字符
{n，m} ：表示n到m个字符

要做更精确的匹配，可以用* [ ] *表示范围

eg:
[0-9a-zA-Z_]可以匹配一个数字，字母或者下划线
[0-9a-zA-Z_]+可以匹配至少由一个数字，字母或下划线组成的字符串

A|B可以匹配A或B，所有(P|p)ython可以匹配‘Python’或者‘python’；
^表示行的开头，^\d表示必须以数字开头；
$表示行的结束，\d$表示必须以数字结束；
py也可以匹配‘python’，但是加上^py$就变成了整行匹配，就只能匹配py了。

re模块

Python提供re模块，包含所有正则表达式的功能。由于Python的字符串本身也用\转义，所以建议使用r前缀，这样就不用考虑转义的问题。

match()方法判断是否匹配，如果匹配成功，返回一个Match对象，否则返回None。用法如下：

import re
if re.match(r'正则表达式'，字符串):
    print('ok')
else:
    print('failed')

切分字符串

用正则表达式切分字符串比用固定的字符更灵活，尤其是切分不规则的字符串。
eg:

>>>re.split(r'[\s\,]+','a,  b, c   d')
['a','b','c','d']

分组

正则表达式还有提取子串的功能。用()表示的就是哟啊提取的分组。
eg：^(\d{3})-(\d{3,8})$分别定义了两个组，可以直接从匹配的字符串中提取出区号和本地号码。

>>>m = re.match(r'^(\d{3})-(\d{3,8})$','010-12345')
>>>m
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>>m.groups()
('010','12345')
>>>m.group(0)
'010-12345'
>>>m.group(1)
'010'
>>>m.group(2)
'12345'

如果正则表达式中定义了组，就可以在Match对象上用group()方法提取出子串，group(0)永远是原始字符串，group(1),group(2)…表示第1，2，…个子串。

贪婪匹配

正则匹配默认是贪婪匹配，也就是匹配尽可能多的字符。
eg：匹配出数字后面的0：

>>>re.match(r'^(\d+)(0*)$','102300').groups()
('102300','')

由于\d+采用贪婪匹配，直接把后面的0全部匹配了，结果0*只能匹配空字符串。
必须让\d+采用非贪婪匹配（也就是尽可能少匹配），才能把后面的0匹配出来，加个?就可以让\d+采用非贪婪匹配：

>>>re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023','00')

编译

当我们在python中使用正则表达式，re模块内部会做两件事：
1.编译正则表达式，如果正则表达式的字符串本身不合法，会报错；
2.用编译后的正则表达式去匹配字符串。

多次使用一个正则表达式时，可以预编译：

>>>import re
#编译
re_t = re.compile(r'^(\d{3})-(\d{3,8})$')
#使用
>>>re_t.match('010-12345').groups()
('010','12345')

名字一会再想

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录