Python学习随笔---正则表达式

基础

  • \d :匹配一个数字
  • \w :匹配一个字母或数字
  • \s :至少有一个空格
  • . :可以匹配任意字符
  • * :表示任意个字符(包括0个)
  • + :表示至少一个字符
  • :表示0个或1个字符
  • {n} :表示n个字符
  • {n,m} :表示n到m个字符

要做更精确的匹配,可以用* [ ] *表示范围

eg:
[0-9a-zA-Z_]可以匹配一个数字,字母或者下划线
[0-9a-zA-Z_]+可以匹配至少由一个数字,字母或下划线组成的字符串

  • A|B可以匹配A或B,所有(P|p)ython可以匹配‘Python’或者‘python’
  • ^表示行的开头,^\d表示必须以数字开头;
  • $表示行的结束,\d$表示必须以数字结束;
  • py也可以匹配‘python’,但是加上^py$就变成了整行匹配,就只能匹配py了。

re模块

Python提供re模块,包含所有正则表达式的功能。由于Python的字符串本身也用\转义,所以建议使用r前缀,这样就不用考虑转义的问题。

match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None。用法如下:

import re
if re.match(r'正则表达式',字符串):
    print('ok')
else:
    print('failed')

切分字符串

用正则表达式切分字符串比用固定的字符更灵活,尤其是切分不规则的字符串。
eg:

>>>re.split(r'[\s\,]+','a,  b, c   d')
['a','b','c','d']

分组

正则表达式还有提取子串的功能。用()表示的就是哟啊提取的分组。
eg:^(\d{3})-(\d{3,8})$分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码。

>>>m = re.match(r'^(\d{3})-(\d{3,8})$','010-12345')
>>>m
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>>m.groups()
('010','12345')
>>>m.group(0)
'010-12345'
>>>m.group(1)
'010'
>>>m.group(2)
'12345'

如果正则表达式中定义了组,就可以在Match对象上用group()方法提取出子串,group(0)永远是原始字符串,group(1),group(2)…表示第1,2,…个子串。

贪婪匹配

正则匹配默认是贪婪匹配,也就是匹配尽可能多的字符。
eg:匹配出数字后面的0:

>>>re.match(r'^(\d+)(0*)$','102300').groups()
('102300','')

由于\d+采用贪婪匹配,直接把后面的0全部匹配了,结果0*只能匹配空字符串。
必须让\d+采用非贪婪匹配(也就是尽可能少匹配),才能把后面的0匹配出来,加个?就可以让\d+采用非贪婪匹配:

>>>re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023','00')

编译

当我们在python中使用正则表达式,re模块内部会做两件事:
1.编译正则表达式,如果正则表达式的字符串本身不合法,会报错;
2.用编译后的正则表达式去匹配字符串。

多次使用一个正则表达式时,可以预编译:

>>>import re
#编译
re_t = re.compile(r'^(\d{3})-(\d{3,8})$')
#使用
>>>re_t.match('010-12345').groups()
('010','12345')
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值