中谷教育Python26~29笔记——正则表达式

最新推荐文章于 2021-02-24 19:37:55 发布

BigerAndBiger

最新推荐文章于 2021-02-24 19:37:55 发布

阅读量636

点赞数

分类专栏：入门 python 文章标签： python 正则表达式编程 string

本文链接：https://blog.csdn.net/BigerAndBiger/article/details/42212091

版权

入门同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

python

11 篇文章 0 订阅

订阅专栏

正则表达式定义：

是一种小型的，高效专业化的编程语言，（在python中）它内嵌在python中，并通过re模块实现。

——可以为想要匹配的相应字符串集值定规则

——该字符串集可能包含英文语句，e-mail地址，命令或者任何你想要搞定的东西。

——可以问诸如“这个字符串匹配该模式吗？”

——“在这个字符串中是否有部分匹配该模式呢？”

——你也可以使用re以各种方式来修改或分隔字符串。

正则表达式模式被编译成一系列的字节码，然后由用C编写的匹配引擎执行

正则表达式语言相对小型和受限（功能有限）

——并非所有字符串处理都能用正则表达式完成

字符串匹配

——普通字符

————大多数字母和字符一般都会和自身匹配

————如正则表达式test会和字符串“test”完全匹配

——元字符：. ^ $ * + ? {} [] \ | ()

元字符详解：

一个小例子：

import re

r = r"^abc$"(红色的r表示元字符串，保留格式啊之类)

re.fandall(r,'abc')

['abc']

.：

匹配除“\n”之外的任何单个字符。若要匹配包括“\n”在内的任意字符，请使用诸如“[\s\S]”之类的模式。

[]:

——常用来指定一个字符集：[abc];[a-z]

——元字符在字符集中不起作用：[akm$]

——补集匹配不在区间范围内的字符：[^5]

——匹配行首。除非设置MULTILINE标志，它只是匹配字符串的开始。在MULTILINE模式里，它也可以直接匹配字符串中的每个换行。

$：

——匹配行尾，行尾被定义为要么是字符串尾，要么是一个换行字符后面的任何位置。

\：转义字符：

——反斜杠后面可以加不同的字符以表示不同特殊意义

——也可以用于取消所有的元字符：\[或\\

——\d匹配任何十进制数；它相当于类[0~9]

——\D匹配任何非数字字符；它相当于类[^0~9]

——\s匹配任何空白字符；它相当于类[\t\n\r\f\v]

——\S匹配任何非空白字符；它相当于类[^\t\n\r\f\v]

——\w匹配任何字母数字字符；它相当于类[a-zA-Z0-9_]

——\W匹配任何非字母数字字符；它相当于类[^a-zA-Z0-9_]

重复：

——正则表达式第一功能是能够匹配不定长的字符集，另一个功能就是你可以指定正则表达式的一部分的重复次数。

*：

——指定前一个字符可以被匹配0次或者更多次，而不是只有一次，匹配引擎会试着重复尽可能多的次数（不超过整数界定范围，20亿）

+：

——表示匹配一或更多次。

——注意+和*之间的不同；*匹配0或更多次，所以可以根本就不出现，而+则要求至少出现一次

？

——匹配一次或0次；你可以认为它由于标识某事物是可选的

最小匹配（非贪婪匹配）：ab+?

{m,n}:

——其中m和n是十进制整数。该限定符的意思是至少有m个重复，至多到n个重复。a/{1,3}b

——忽略m会认为下边界是0，而忽略n的结果将是上边界为无穷大（实际上是20亿）

——{0,}等同于*，{1,}等同于+，而{0,1}则与？相同。如果可以的话，最好使用*，+，？

r = r"^010-\d{8}"表示把\d重复8次

使用正则表达式：

——re模块提供了一个正则表达式引擎的接口，可以让你将REstring编译成对象并对它们来进行匹配。

——编译正则表达式：

#！python

import re

p = re.compile('ab*')

print (p)

<re.RegexObject instance at 80b4150>

——re.compile()也接受可选的标志参数，常用来实现不同的特殊功能和语法变更

#！python

p = re.compile('ab*',re.IGNORECASE)

——反斜杠的麻烦

字符串前加“r”反斜杠就不会被任何特殊方式处理

\section要匹配的字符串

\\section为re.compile取消反斜杠的特殊意义

"\\\\section"为"\\section"的字符串实值（string literals）取消反斜杠的特殊意义

执行匹配

'RegexObject'实例有一些方法和属性，完整的列表可查阅Python Library Reference

方法/属性	作用
match()	决定RE是否在字符串刚开始的位置匹配
search()	扫描字符串，找到这个RE匹配的位置
findall()	找到RE匹配的所有子串，并把它们作为一个列表返回
finditer()	找到RE匹配的所有子串，并把它们作为一个迭代器返回

如果没有匹配到的话，match()和search()讲返回None。

如果成功的话，就会返回一个‘MatchObject’实例

MatchObject实例方法

方法/属性	作用
group()	返回被RE匹配的字符串
start()	返回匹配开始的位置
end()	返回匹配结束的位置
span()	返回一个元组包含匹配（开始，结束）的位置

在实际程序中，最常见的作法是将‘MatchObject’保存在一个变量里，然后检查它是否为None

#！python

p = re.compile(......)

m = p.match('string goes here')

if m:

print 'MATCH FOUND :',m.group()

else:

print 'NO MATCH'

模块级函数

——re模块也提供了顶级函数调用如match(),search(),sub(),subn(),split(),findall()等

编译标志-flags

标志	含义
DOTALL,S	使.匹配包括换行在内的所有字符
IGNORECASE,I	使匹配对大小写不敏感
LOCALE,L	做本地化识别（）匹配.法语等""或""
MULTILINE,M	多行匹配，影响^和$
VERBOSE,X	能够使用REs的verbose状态，使之被组织得更清晰易懂

#!python