正则表达式-量词

最新推荐文章于 2023-05-15 14:58:54 发布

hibernate2333

最新推荐文章于 2023-05-15 14:58:54 发布

阅读量164

点赞数

分类专栏：正则表达式文章标签：正则表达式

本文链接：https://blog.csdn.net/qq_37923376/article/details/119572482

版权

2 篇文章 0 订阅

订阅专栏

第2章量词

例2-1 匹配邮政编码

re.search(r"^\d\d\d\d\d\d$", "158695") != None  # True
re.search(r"^\d{6}$", "158695") != None  # True

例2-2 使用量词简化字符组

通用形式是{m,n}，其中m和n是两个数字（有些人习惯在代码中的逗号之后添加空格，这样更好看，但是量词中的逗号之后不能有空格），它限定之前的元素[1]能够出现的次数，m是下限，n是上限（均为闭区间）

例2-3 表示不确定长度的量词

量词没有指定上限，那么重复次数真的没有上限吗？

这个隐式的上限是65536

例2-4 量词?的应用

# 以<开头，除去>字符，中间最少有一个字符，以>结尾
re.search(r"^<[^>]+>$", "<bold>") != None  # True
re.search(r"^<[^>]+>$", "<>") != None  # False

例2-5 量词+的应用

匹配双引号字符串 "[^"]*"

例2-6 量词*的应用

open tag：<[^/][^>]*>。因为[^/]必须匹配一个字符，所以“若干字符”中其他部分必须写成[^>]*，否则它无法匹配名字为单个字符的标签，比如<b>。特点是以<开头，然后是“若干字符”（但不能以/开头），最后是>，所以对应的正则表达式是<[^/][^>]*>。

close tag：</[^>]+>。特点是以<开头，之后是/字符，然后是“若干字符（但不能以/开头）”，最后是>。

self-closing tag：<[^>]+/>。特点是以<开头，中间是“若干字符”，最后是/>。

re.search()如果匹配成功，返回一个MatchObject对象。这个对象包含了匹配的信息，通过调用MatchObject.group(0)来获得。调用它可以得到表达式匹配的文本。

print re.search(r"\d{6}", "de345634fd").group(0) # 345634

re.findall(pattern,string)。其中pattern是正则表达式，string是字符串。这个方法会返回一个数组，其中的元素是在string中依次寻找pattern能匹配的文本。

print re.findall(r"\d{6}", "a:345634, b:344342") # ['345634', '344342']

元字符：点号 . 。一般文档里都会提到，点号可以匹配“任意字符”，点号确实可以匹配“任意字符”，常见的数字、字母、各种符号都可以

有一个字符不能由点号匹配，就是换行符\n

例2-11 换行符的匹配

忽略优先量词

如果不确定是否要匹配，忽略优先量词会选择“不匹配”的状态，再尝试表达式中之后的元素，如果尝试失败，再回溯，选择之前保存的“匹配”的状态。

例2-17 用正则表达式拆解Linux/UNIX的路径

例2-18 用正则表达式拆解Windows的路径

关注