Python之正则表达式

正则表达式是一种用来匹配字符串的强有力的武器,它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,就认为合法,否则,该字符串就是不合法的。正则表达式在各语言中都广泛使用,今天以Python为例,讲述正则表达式的使用。

  1. 语法规则
    在正则表达式中,如果直接给出字符,就是精确匹配。其它规则如下:
    • ”.”表示任意字符
    • “\d”表示一个数字
    • “\w”表示一个字母或数字
    • “*”表示任意长度字符
    • “+”表示至少一个字符
    • “?”表示0个或1个字符
    • “{n}”表示n个字符
    • “\s”表示一个空格
    • “^”表示行的开头
    • “$” 表示行的结束
    • “{n,m}”表示n~m个字符
      示例:
    • “00\d” 可以匹配”007”
    • “\d\d\d”可以匹配”010”
    • “\w\w\d”可以匹配”py3”
    • “py.”可以匹配”pyc”“pyo”“py!”
    • ”\d{3}\s+\d{3,8}“可以匹配“010 82881354”
    • “^\d”表示必须以数字开头
    • “\d$”表示必须以数字结尾
    • “A|B”可以匹配A或B
  2. 进阶
    要做更精确地匹配,可以用”[]”表示范围,如下:

    • ”[0-9a-zA-Z_]”可以匹配一个数字、字母或者下划线
    • “[0-9a-zA-Z_]+”可以匹配至少由一个数字、字母或者下划线组成的字符串,如:“a100、””0_Z”
    • “[a-zA-Z_][0-9a-zA-Z_]*”可以匹配由字母或下划线开头,后接任意一个数字、字母或者下划线组成的字符串,如:”test01”
  3. re模块
    Python提供了re模块,包含所有的正则表达式功能。如下:
import re
if re.match(r'^\d{3}\-\d{3,8}$', '010-12345'):
   print("match success")
else:
   print("match error")
if re.match(r'^\d{3}\s\d{3,8}$', '010-12345'):
   print("match success")
else:
   print("match error")

输出结果:

match success
match error

-4. 切分字符串
用正则表达式切分字符串比用固定的字符更灵活,如:

import re
print(re.split(r'\s+', 'a b   c'))
输出结果:
['a', 'b', 'c']

-5. 分组
除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能。用”()”表示的就是要提取的分组。如下:

import re
m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
print(m.group(0))
print(m.group(1))
print(m.group(2))
输出结果:
010-12345
010
12345

-6. 编译
如果在项目中,一个正则表达式重复使用多次,出于对效率的考虑,可以预编译该正则表达式,接下来的使用中就可以直接匹配了,如下:

import re
re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
print(re_telephone.match('010-12345').groups())
print(re_telephone.match('010-8086').groups())

输出结果:

('010', '12345')
('010', '8086')
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值