python正则表达式-re模块的常见用法(上)

python正则表达式-re模块的常见用法(下)

前言

在开发中可能会遇到大量的字符串处理工作,在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本,而python中re模块的使用可以带来很大便利。

re模块的使用

import re
result = re.match(正则表达式,要匹配的字符串)
result.group()
示例
In [1]: import re

In [2]: mm = 'myblog'

In [3]: result = re.match('my',mm)

In [4]: result.group()
Out[4]: 'my'

re.match()能够匹配以XXX开头的字符串,从左到右匹配,若字符串匹配正则表达式,则match方法返回匹配对象(Match Object),否则返回None,注意不是空字符串。

表示字符

字符功能
.匹配任意1个字符,除了\n
[ ]匹配[ ]中列举的字符
\d匹配数字,即0-9
\D匹配非数字,即不是数字
\s匹配空白,即空格,tab键
\S匹配非空白
\w匹配单词字符,即a-z、A-Z、0-9、_
\W匹配非单词字符

示例

# coding:utf-8
import re
ret1 = re.match('.','Love') #从左至右匹配
R1 = ret1.group()
print("R1 = %s" %R1)
ret2 = re.match('\d.\d','888') #匹配数字以及任意字符
R2 = ret2.group()
print("R2 = %s" %R2)
ret3 = re.match('\W\w\S.',' Love')
R3 = ret3.group()
print("R3 = %s" %R3)
ret4 = re.match('[Ll]','love Love') #无论是大写L还是小写l皆可匹配
R4 = ret4.group()
print("R4 = %s" %R4)
ret5 = re.match('[0123456789]','8') #匹配数字0-9的第一种方法
R5 = ret5.group()
print("R5 = %s" %R5)
ret6 = re.match('[0-9]','8') #匹配数字0-9的第二种方法
R6 = ret6.group()
print("R6 = %s" %R6)

结果

R1 = L
R2 = 888
R3 =  Lov
R4 = l
R5 = 8
R6 = 8

表示数量

字符功能
*匹配前⼀个字符出现0次或者⽆限次,即可有可⽆
+匹配前⼀个字符出现1次或者⽆限次,即⾄少有1次
?匹配前⼀个字符出现1次或者0次,即要么有1次,要么没有
{m}匹配前⼀个字符出现m次
{m,}匹配前⼀个字符⾄少出现m次
{m,n}匹配前⼀个字符出现从m到n次
  1. 示例1:匹配出,一个字符串第一个字母为大小皆可,后面都是小写字母并且可有可无。
import re
ret1 = re.match('[A-Z][a-z]*','Aabcdefg')
R1 = ret1.group()
print("R1 = %s" %R1)

结果

R1 = Aabcdefg
  1. 示例2:匹配出,0-99之间的数字,包含01。
# coding:utf-8
import re
ret = re.match("[1-9]?[0-9]","08")
R =ret.group()
print('R = %s'%R)
  1. 示例3:匹配出,8到20位的密码,可以是⼤⼩写英⽂字⺟、数字、下划线,但不能以下划线开头。
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]{1}[a-zA-Z0-9_]{7,19}","12a3g45678")
R1 = ret.group()
print('R1 = %s'%R1)
ret = re.match("[a-zA-Z0-9]\w{7,19}","12a3g45678love")
R2 = ret.group()
print('R2 = %s'%R2)

结果

R1 = 12a3g45678
R2 = 12a3g45678love
  1. 示例4:匹配出163的邮箱地址,且@符号之前有4到20位,例如hello@163.com
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com","hello@163.com")
R1 = ret.group()
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com","hello@163.comhaha") #错误的匹配
R2 = ret.group()
print('R1 = %s'%R2)

结果

R1 = hello@163.com
R1 = hello@163.com

原生字符串

In [1]: import re

In [2]: mm = "c:\\a\\b\\c"

In [3]: mm
Out[3]: 'c:\\a\\b\\c'

In [4]: print(mm)
c:\a\b\c

In [5]: re.match("c:\\\\",mm).group()
Out[5]: 'c:\\'

In [6]: ret = re.match("c:\\\\",mm).group()

In [7]: print(ret)
c:\

可以看到,为了匹配⽂本中的字符"\",正则表达式⾥将需要4个反斜杠"\":前两个和后两个分别⽤于在编程语⾔⾥转义成反斜杠,转换成两个反斜杠后再在正则表达式⾥转义成⼀个反斜杠。Python中字符串前⾯加上 r 表示原⽣字符串,可以很好的解决这个问题,不怕漏写反斜杠。

In [8]: ret = re.match(r"c:\\a",mm).group()

In [9]: print(ret)
c:\a

表示边界

字符功能
^匹配字符串开头
$匹配字符串结尾
\b匹配⼀个单词的边界
\B匹配⾮单词边界
  1. 示例1,可以看到,之前hello@163.comhaha的邮箱地址并不正确,但是仍然匹配出来了,完善的re规则是,
# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com$","hello@163.com")
R1 = ret.group()
print('R1 = %s'%R1)
  1. 示例2:单词边界
# coding:utf-8
import re
ret1 = re.match(r".*\bLove\b","I Love you")
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r".*\bLove\b","I Loveyou")
print("ret2 = %s" %ret2)

结果:

R1 = I Love
ret2 = None
  1. 示例3:非单词边界
# coding:utf-8
import re
ret1 = re.match(r".*\Blove\B", "Ilovecoding")
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r".*\Blove\B","I love coding")
print("ret2 = %s" %ret2)

结果

R1 = Ilove
ret2 = None

匹配分组

字符功能
|匹配左右任意一个表达式
(ab)将括号中字符作为⼀个分组
\num引⽤分组num匹配到的字符串
(?P<name>)分组起别名
(?P=name)引⽤别名为name分组匹配到的字符串
  1. 示例1:匹配0-100之间的自然数
# coding:utf-8
import re
ret1 = re.match(r"[1-9]?\d|100", "01")# 错误的情况
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r"[1-9]?\d$|100$", "99") #修改后的情况
R2 = ret2.group()
print('R2 = %s'%R2)

结果

R1 = 0
R2 = 99
  1. 示例2:
# coding:utf-8
import re
ret1 = re.match(r"([^-]*)-(\d+)","010-12345678")
R1 = ret1.group(0)
R2 = ret1.group(1)
R3 = ret1.group(2)
print('group(0) = %s'%R1)
print('group(1) = %s'%R2)
print('group(2) = %s'%R3)

结果

group(0) = 010-12345678
group(1) = 010
group(2) = 12345678
  1. 示例3:\number,匹配出 <html>hh</html>
# coding:utf-8
import re
ret1 = re.match(r"<[a-zA-Z]*>\w*</[a-zA-Z]*>$","<html>hh</html>") #第一种写法
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r"<([a-zA-Z]*)>\w*</\1>$", "<html>hh</html>") #分组引用的写法
R2 = ret2.group()
print('R2 = %s'%R2)
  1. 示例4:(?P<name>) (?P=name),匹配出 <html><h1>www.baidu.com</h1></html>
# coding:utf-8
import re
ret1 = re.match(r"<(?P<name_1>\w*)><(?P<name_2>\w*)>.*</(?P=name_2)></(?P=name_1)>$","<html><h1>www.baidu.com</h1></html>")
# name_1代表匹配到的别名,后面可以引用,name_2同理
R1 = ret1.group()
print('R1 = %s'%R1)

结果:

R1 = <html><h1>www.baidu.com</h1></html>

本文中的示例re匹配方式不唯一,正则表达式的方法是有多种写法的,只要能达到预期效果就可以。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值