python正则表达式-re模块的常见用法(上)

最新推荐文章于 2022-05-10 12:02:32 发布

断线纸鸢张

最新推荐文章于 2022-05-10 12:02:32 发布

阅读量371

点赞数

分类专栏： python 文章标签： python re模块正则表达式

本文链接：https://blog.csdn.net/qq_22808061/article/details/102974513

版权

python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

python正则表达式-re模块的常见用法(下)

前言

在开发中可能会遇到大量的字符串处理工作，在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本，而python中re模块的使用可以带来很大便利。

re模块的使用

import re
result = re.match(正则表达式，要匹配的字符串)
result.group()

示例

In [1]: import re

In [2]: mm = 'myblog'

In [3]: result = re.match('my',mm)

In [4]: result.group()
Out[4]: 'my'

re.match()能够匹配以XXX开头的字符串，从左到右匹配，若字符串匹配正则表达式，则match方法返回匹配对象(Match Object)，否则返回None，注意不是空字符串。

表示字符

字符	功能
.	匹配任意1个字符，除了\n
[ ]	匹配[ ]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字
\s	匹配空白，即空格，tab键
\S	匹配非空白
\w	匹配单词字符，即a-z、A-Z、0-9、_
\W	匹配非单词字符

示例

# coding:utf-8
import re
ret1 = re.match('.','Love') #从左至右匹配
R1 = ret1.group()
print("R1 = %s" %R1)
ret2 = re.match('\d.\d','888') #匹配数字以及任意字符
R2 = ret2.group()
print("R2 = %s" %R2)
ret3 = re.match('\W\w\S.',' Love')
R3 = ret3.group()
print("R3 = %s" %R3)
ret4 = re.match('[Ll]','love Love') #无论是大写L还是小写l皆可匹配
R4 = ret4.group()
print("R4 = %s" %R4)
ret5 = re.match('[0123456789]','8') #匹配数字0-9的第一种方法
R5 = ret5.group()
print("R5 = %s" %R5)
ret6 = re.match('[0-9]','8') #匹配数字0-9的第二种方法
R6 = ret6.group()
print("R6 = %s" %R6)

结果

R1 = L
R2 = 888
R3 =  Lov
R4 = l
R5 = 8
R6 = 8

表示数量

字符	功能
*	匹配前⼀个字符出现0次或者⽆限次，即可有可⽆
+	匹配前⼀个字符出现1次或者⽆限次，即⾄少有1次
?	匹配前⼀个字符出现1次或者0次，即要么有1次，要么没有
{m}	匹配前⼀个字符出现m次
{m,}	匹配前⼀个字符⾄少出现m次
{m,n}	匹配前⼀个字符出现从m到n次

示例1：匹配出，一个字符串第一个字母为大小皆可，后面都是小写字母并且可有可无。

import re
ret1 = re.match('[A-Z][a-z]*','Aabcdefg')
R1 = ret1.group()
print("R1 = %s" %R1)

结果

R1 = Aabcdefg

示例2：匹配出，0-99之间的数字，包含01。

# coding:utf-8
import re
ret = re.match("[1-9]?[0-9]","08")
R =ret.group()
print('R = %s'%R)

示例3：匹配出，8到20位的密码，可以是⼤⼩写英⽂字⺟、数字、下划线，但不能以下划线开头。

# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]{1}[a-zA-Z0-9_]{7,19}","12a3g45678")
R1 = ret.group()
print('R1 = %s'%R1)
ret = re.match("[a-zA-Z0-9]\w{7,19}","12a3g45678love")
R2 = ret.group()
print('R2 = %s'%R2)

结果

R1 = 12a3g45678
R2 = 12a3g45678love

示例4：匹配出163的邮箱地址，且@符号之前有4到20位，例如hello@163.com

# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com","hello@163.com")
R1 = ret.group()
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com","hello@163.comhaha") #错误的匹配
R2 = ret.group()
print('R1 = %s'%R2)

结果

R1 = hello@163.com
R1 = hello@163.com

原生字符串

In [1]: import re

In [2]: mm = "c:\\a\\b\\c"

In [3]: mm
Out[3]: 'c:\\a\\b\\c'

In [4]: print(mm)
c:\a\b\c

In [5]: re.match("c:\\\\",mm).group()
Out[5]: 'c:\\'

In [6]: ret = re.match("c:\\\\",mm).group()

In [7]: print(ret)
c:\

可以看到，为了匹配⽂本中的字符"\"，正则表达式⾥将需要4个反斜杠"\"：前两个和后两个分别⽤于在编程语⾔⾥转义成反斜杠，转换成两个反斜杠后再在正则表达式⾥转义成⼀个反斜杠。Python中字符串前⾯加上 r 表示原⽣字符串，可以很好的解决这个问题，不怕漏写反斜杠。

In [8]: ret = re.match(r"c:\\a",mm).group()

In [9]: print(ret)
c:\a

表示边界

字符	功能
^	匹配字符串开头
$	匹配字符串结尾
\b	匹配⼀个单词的边界
\B	匹配⾮单词边界

示例1，可以看到，之前hello@163.comhaha的邮箱地址并不正确，但是仍然匹配出来了，完善的re规则是，

# coding:utf-8
import re
ret = re.match("[a-zA-Z0-9]\w{3,19}@163\.com$","hello@163.com")
R1 = ret.group()
print('R1 = %s'%R1)

示例2：单词边界

# coding:utf-8
import re
ret1 = re.match(r".*\bLove\b","I Love you")
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r".*\bLove\b","I Loveyou")
print("ret2 = %s" %ret2)

结果：

R1 = I Love
ret2 = None

示例3：非单词边界

# coding:utf-8
import re
ret1 = re.match(r".*\Blove\B", "Ilovecoding")
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r".*\Blove\B","I love coding")
print("ret2 = %s" %ret2)

结果

R1 = Ilove
ret2 = None

匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中字符作为⼀个分组
\num	引⽤分组num匹配到的字符串
(?P<name>)	分组起别名
(?P=name)	引⽤别名为name分组匹配到的字符串

示例1：匹配0-100之间的自然数

# coding:utf-8
import re
ret1 = re.match(r"[1-9]?\d|100", "01")# 错误的情况
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r"[1-9]?\d$|100$", "99") #修改后的情况
R2 = ret2.group()
print('R2 = %s'%R2)

结果

R1 = 0
R2 = 99

示例2：

# coding:utf-8
import re
ret1 = re.match(r"([^-]*)-(\d+)","010-12345678")
R1 = ret1.group(0)
R2 = ret1.group(1)
R3 = ret1.group(2)
print('group(0) = %s'%R1)
print('group(1) = %s'%R2)
print('group(2) = %s'%R3)

结果

group(0) = 010-12345678
group(1) = 010
group(2) = 12345678

示例3：\number，匹配出 <html>hh</html>

# coding:utf-8
import re
ret1 = re.match(r"<[a-zA-Z]*>\w*</[a-zA-Z]*>$","<html>hh</html>") #第一种写法
R1 = ret1.group()
print('R1 = %s'%R1)
ret2 = re.match(r"<([a-zA-Z]*)>\w*</\1>$", "<html>hh</html>") #分组引用的写法
R2 = ret2.group()
print('R2 = %s'%R2)

示例4：(?P<name>) (?P=name)，匹配出 <html><h1>www.baidu.com</h1></html>

# coding:utf-8
import re
ret1 = re.match(r"<(?P<name_1>\w*)><(?P<name_2>\w*)>.*</(?P=name_2)></(?P=name_1)>$","<html><h1>www.baidu.com</h1></html>")
# name_1代表匹配到的别名，后面可以引用，name_2同理
R1 = ret1.group()
print('R1 = %s'%R1)

结果：

R1 = <html><h1>www.baidu.com</h1></html>

本文中的示例re匹配方式不唯一，正则表达式的方法是有多种写法的，只要能达到预期效果就可以。

断线纸鸢张

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python正则表达式-re模块的常见用法(上)

前言在开发中可能会遇到大量的字符串处理工作，在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本，而python中re模块的使用可以带来很大便利。re模块的使用import reresult = re.match(正则表达式，要匹配的字符串)result.group()示例In [1]: import reIn [2]: mm = 'myblog'In ...
复制链接

扫一扫