python 正则表达式

最新推荐文章于 2021-10-01 20:05:53 发布

lhh1113

最新推荐文章于 2021-10-01 20:05:53 发布

阅读量235

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lhh1113/article/details/51722850

版权

Python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

正则表达式内嵌在python中，并通过re模块实现

使用范围：

1，可以为想要匹配的相应字符串集指定规则

2，该字符串集可能包括英文语句，e-mail地址，命令，或任何你想要的东西

3，可以访问诸如‘这个字符串匹配该模式’

4，‘在这个字符串中是否有部分匹配该模式’

5，你也可以使用RE以各种方式来修改或分割字符串

字符匹配：

普通字符

元字符：. ^ $ * + ? {} [] \ | ()

[ ] 常用来指定一个字符集：[abc][a-z]

元字符在字符集中不起作用：[akm$]

补集匹配不在区间范围内的字符：[^5]

^ 匹配行首。除非设置MULTILINE标准，他只是匹配字符串的开始。在MULTILINE模式里，他也可以直接匹配字符串的每个换行

$ 匹配行尾，行尾被定义为要么是字符串，要么是一个换行字符后面的任何位置

定义正则表达式的字符串通常加r，例：s = r'abc'

例：

import re

s=r'abc'

re.findall(s,'abcsfasdfsdfabcsdfdf')

结果：['abc','abc']

st = 'top tip tapd df afdf sdf'

str = r't[io]p' #表示有i或者o

re.findall(str,st)

结果：['top','tip']

st = 'top tip twp tcp'

str = r't[^io]p #^表示取反

re.findall(str,st)

结果：['twp','tcp']

\ 转义字符

反斜杠后面可以加不同的字符以表示不同特殊意义

也可以用于取消所有的元字符：\[ 或\\

\d匹配任何十进制数，相当于[0-9]

\D匹配任何非数字字符，相当于[^0-9]

\s匹配任何空白字符，相当于[\t\n\r\f\v]

\S匹配任何非空白字符，想当于[^\t\n\r\f\v]

\w匹配任何字母数字；相当于[a-zA-Z0-9]

\W匹配任何非字母数字字符，相当于[^a-zA-Z0-9]

* 指定前一个字符可以被匹配0次或更多次，而不是只有一次，匹配引擎会试着重复尽可能多的次数

例：

r = r'010-\d{8}' #等同于r = '010-\d\d\d\d\d\d\d\d'

re.findall(r,'010-23452134')

r=r'ab*'

re.findall(r,'abbbb')

结果：abbbb

+ 表示匹配一次或多次

注意：*和+之间的不同：*匹配0次或多次，所以可以根本就不出现，而+则要求至少要出现一次

例：

r = r'ab+'

re.findall(r,'a') #结果为[]，而使用r = r'ab*' re.findall(r,'a') 结果为['a']

? 匹配一次或0次；你可以认为它用于标识某事物是可选的

例：r = r'010-?\d{8}'

re.findall(r,'01023453432')

结果为：01023453432

{m,n}

其中m和n是10进制整数，该限定符的意思是至少有m个重复，至多有n个重复

忽略m会认为下边界是0，而忽略上边界为无穷大

{0, }等同与* ，{1，}等同于+，而{0,1}则与？相同，如果可以的话，最好使用*，+，或？

使用正则表达式

re模块提供了一个正则表达式引擎的接口，可以让你将REstring 编译成对象并用他们来进行匹配

编译正则表达式

#!python

import re

p = re.compile(ab*)

p.findall('ab') #编译好直接使用和re.findall(p,'ab')一样

re.compile()也可以接受可选的标志着参数，常用来实现不同的特殊功能和语法变更

#!python

p = re.compile('ab*',re.IGNORECASE)

字符串前加‘r’反斜杠就不会被任何特殊方式处理

\section 要匹配的字符串

\\section 为re.compile取消反斜杠的特殊意义

\\\\section 为 “\\section”的字符串实值（string literals）取消反斜杠的特殊意思义

例：csvt_re = re.compile(r'csvt',re.I) #也可以匹配大写

csvt_re.findall('CSVT')

结果：CSVT

执行匹配：

‘RegexObject’实例有一些方法和属性完整的列表可查阅Python Library Reference

match() 决定RE是否在字符串刚开始的位置匹配

search() 扫描字符串，找到这个RE匹配的位置

finditer() 找到RE匹配的所有子串，并把他们做为一个迭代器返回

findall() 找到RE匹配的所有子串，并把他们作为一个列表返回

如果没有匹配到的话，match()和search()将返回None。如果成功的话，就会返回一个实例

group() 返回被RE匹配的字符串

start（）返回匹配开始的位置

end()返回一个元组包含匹配（开始，结束）位置

实际程序中，最常见的做法是讲‘MatchObject’保存到一个变量中，然后检查是否为None

例：

p = re.compile(...)

m = p.match('string goes here')

if m:

print 'Match found:',m.group()

else:

print'No match'

sub() 替换re.sub('要替换的字符串'，‘使用替换的字符串’，‘原字符串’，count = 0)

split() 切割

编译标志--flags

DOTALL, S 使用 . 匹配包括换行在内的所有字符串

IGNORECASE I 使用匹配对大小写不敏感

LOCALE L 做本地化标识

分组：（和）

例：

email = r'\w{3}@\w+(\.com|\.cn)' #如果使用（）表示|（或）的范围

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 正则表达式

正则表达式内嵌在python中，并通过re模块实现使用范围：1，可以为想要匹配的相应字符串集指定规则2，该字符串集可能包括英文语句，e-mail地址，命令，或任何你想要的东西3，可以访问诸如‘这个字符串匹配该模式’4，‘在这个字符串中是否有部分匹配该模式’5，你也可以使用RE以各种方式来修改或分割字符串字符匹配：普通字符元字符：. ^ $ * + ? {
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。