1. 正则表达式概述
正则表达式,又称正规表达式、正规表示法、规则表达式、常规表示法(Regular Expression,在代码中常简写为regex、regexp或RE),是计算机科学的一个概念,正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。
Regular Expression的“Regular”一般被译为”正则“、”正规“、”常规“。此处的”regular“即是”规则“、”规律“的意思,Regular Expression即”描述某种规则的表达式“之意。
2. 基本匹配
正则表达式只是我们用于在文本中检索字母和数字的模式。例如正则表达式 cat
,表示: 字母 c
后面跟着一个字母 a
,再后面跟着一个字母 t
"cat" => The 'cat' sat on the mat
正则表达式 123
会匹配字符串 “123”。通过将正则表达式中的每个字符逐个与要匹配的字符串中的每个字符进行比较,来完成正则匹配。 正则表达式通常区分大小写,因此正则表达式 Cat
与字符串 “cat” 不匹配。
"Cat" => The cat sat on the 'Cat'
3. 元字符
元字符是正则表达式的基本组成元素。元字符在这里跟它通常表达的意思不一样,而是以某种特殊的含义去解释。有些元字符写在方括号内的时候有特殊含义。 元字符如下:
元字符 | 描述 |
---|---|
. | 匹配除换行符(\n)以外的任意字符。 |
[ ] | 字符类,匹配方括号中包含的任意字符。 |
[^ ] | 否定字符类。匹配方括号中不包含的任意字符 |
* | 匹配前面的子表达式零次或多次 |
+ | 匹配前面的子表达式一次或多次 |
? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。 |
{n,m} | 花括号,匹配前面字符至少 n 次,但是不超过 m 次。 |
(xyz) | 字符组,按照确切的顺序匹配字符xyz。 |
| | 分支结构,匹配符号之前的字符或后面的字符。 |
\ | 转义符,它可以还原元字符原来的含义,允许你匹配保留字符 `[ ] ( ) { } . * + ? ^ $ \ |
^ | 匹配行的开始 |
$ | 匹配行的结束 |
3.1 英文句号
英文句号 .
是元字符的最简单的例子。元字符 .
可以匹配任意单个字符。它不会匹配换行符和新行的字符。例如正则表达式 .ar
,表示: 任意字符后面跟着一个字母 a
, 再后面跟着一个字母 r
。
".ar" => The 'car' 'par'ked in the 'gar'age.
3.2 字符集
字符集也称为字符类。方括号被用于指定字符集。使用字符集内的连字符来指定字符范围。方括号内的字符范围的顺序并不重要。 例如正则表达式 [Tt]he
,表示: 大写 T
或小写 t
,后跟字母 h
,再后跟字母 e
。
"[Tt]he" => 'The' car parked in 'the' garage.
然而,字符集中的英文句号表示它字面的含义。正则表达式 ar[.]
,表示小写字母 a
,后面跟着一个字母 r
,再后面跟着一个英文句号 .
字符。
"ar[.]" => A garage is a good place to park a c'ar.'
一般来说插入字符 ^
表示一个字符串的开始,但是当它在方括号内出现时,它会取消字符集。例如正则表达式 [^c]ar
,表示: 除了字母 c
以外的任意字符,后面跟着字符 a
, 再后面跟着一个字母 r
。
"[^c]ar" => The car 'par'ked in the 'gar'age.
3.3 星号
该符号 *
表示匹配上一个匹配规则的零次或多次。正则表达式 a*
表示小写字母 a
可以重复零次或者多次。但是它如果出现在字符集或者字符类之后,它表示整个字符集的重复。 例如正则表达式 [a-z]*
,表示: 一行中可以包含任意数量的小写字母。
"[a-z]*" => T'he car parked in the garage'
该 *
符号可以与元符号 .
用在一起,用来匹配任意字符串 .*
。该 *
符号可以与空格符 \s
一起使用,用来匹配一串空格字符。 例如正则表达式 \s*cat\s*
,表示: 零个或多个空格,后面跟小写字母 c
,再后面跟小写字母 a
,再再后面跟小写字母 t
,后面再跟零个或多个空格。
"\s*cat\s*" => The fat 'cat' sat on the 'cat'.
3.4 加号
该符号 +
匹配上一个字符的一次或多次。例如正则表达式 c.+t
,表示: 一个小写字母 c
,后跟任意数量的字符,后跟小写字母 t
。
"c.+t" => The fat 'cat sat on the mat'.
3.5 问号
在正则表达式中,元字符 ?
用来表示前一个字符是可选的。该符号匹配前一个字符的零次或一次。 例如正则表达式 [T]?he
,表示: 可选的大写字母 T
,后面跟小写字母 h
,后跟小写字母 e
。
"[T]he" => 'The' car is parked in the garage.
"[T]?he" => 'The' car is parked in t'he' garage.
3.6 花括号
在正则表达式中花括号(也被称为量词 ?)用于指定字符或一组字符可以重复的次数。例如正则表达式 [0-9]{2,3}
,表示: 匹配至少2位数字但不超过3位(0到9范围内的字符)。
"[0-9]{2,3}" => The number was 9.'999'7 but we rounded it off to '10'.0.
我们可以省略第二个数字。例如正则表达式 [0-9]{2,}
,表示: 匹配2个或更多个数字。如果我们也删除逗号,则正则表达式 [0-9]{2}
,表示: 匹配正好为2位数的数字。
"[0-9]{2,}" => The number was 9.'9997' but we rounded it off to '10'.0.
"[0-9]{2}" => The number was 9.;'99''97' but we rounded it off to '10'.0.
3.7 字符组
字符组是一组写在圆括号内的子模式 (...)
。正如我们在正则表达式中讨论的那样,如果我们把一个量词放在一个字符之后,它会重复前一个字符。 但是,如果我们把量词放在一个字符组之后,它会重复整个字符组。 例如正则表达式 (ab)*
表示匹配零个或多个的字符串 “ab”。我们还可以在字符组中使用元字符 |
。例如正则表达式 (c|g|p)ar
,表示: 小写字母 c
、g
或 p
后面跟字母 a
,后跟字母 r
。
"(c|g|p)ar" => The 'car' is 'par'ked in the 'gar'age.
3.8 分支结构
在正则表达式中垂直条 |
用来定义分支结构,分支结构就像多个表达式之间的条件。现在你可能认为这个字符集和分支机构的工作方式一样。 但是字符集和分支结构巨大的区别是字符集只在字符级别上有作用,然而分支结构在表达式级别上依然可以使用。 例如正则表达式 (T|t)he|car
,表示: 大写字母 T
或小写字母 t
,后面跟小写字母 h
,后跟小写字母 e
或小写字母 c
,后跟小写字母 a
,后跟小写字母 r
。
"(T|t)he|car" => 'The' 'car' is parked in 'the' garage.
3.9 特殊转义字符
正则表达式中使用反斜杠 \
来转义下一个字符。这将允许你使用保留字符来作为匹配字符 { } [ ] / \ + * . $ ^ | ?
。在特殊字符前面加 \
,就可以使用它来做匹配字符。 例如正则表达式 .
是用来匹配除了换行符以外的任意字符。现在要在输入字符串中匹配 .
字符,正则表达式 (f|c|m)at\.?
,表示: 小写字母 f
、c
或者 m
后跟小写字母 a
,后跟小写字母 t
,后跟可选的 .
字符。
"(f|c|m)at\.?" => The 'fat' 'cat' sat on the 'mat.'
3.10 插入符号
插入符号 ^
符号用于检查匹配字符是否是输入字符串的第一个字符。如果我们使用正则表达式 ^a
(如果a是起始符号)匹配字符串 abc
,它会匹配到 a
。 但是如果我们使用正则表达式 ^b
,它是匹配不到任何东西的,因为在字符串 abc
中 “b” 不是起始字符。 让我们来看看另一个正则表达式 ^(T|t)he
,这表示: 大写字母 T
或小写字母 t
是输入字符串的起始符号,后面跟着小写字母 h
,后跟小写字母 e
。
"(T|t)he" => 'The' car is parked in 'the' garage.
"^(T|t)he" => 'The' car is parked in the garage.
3.11 美元符号
美元 $
符号用于检查匹配字符是否是输入字符串的最后一个字符。例如正则表达式 (at\.)$
,表示: 小写字母 a
,后跟小写字母 t
,后跟一个 .
字符,且这个匹配器必须是字符串的结尾。
"(at\.)" => The fat c'at.' s'at.' on the m'at.'
"(at\.)$" => The fat cat sat on the m'at.'
4. 简写字符集
正则表达式为常用的字符集和常用的正则表达式提供了简写。简写字符集如下:
简写 | 描述 |
---|---|
. | 匹配除换行符(\n)以外的任意字符 |
\w | 匹配所有字母和数字的字符: [a-zA-Z0-9_] |
\W | 匹配非字母和数字的字符: [^\w] |
\d | 匹配数字: [0-9] |
\D | 匹配非数字: [^\d] |
\s | 匹配空格符: [\t\n\f\r\p{Z}] |
\S | 匹配非空格符: [^\s] |
5. 断言
后行断言和先行断言有时候被称为断言,它们是特殊类型的 非捕获组 (用于匹配模式,但不包括在匹配列表中)。当我们在一种特定模式之前或者之后有这种模式时,会优先使用断言。 例如我们想获取输入字符串 $4.44 and $10.88
中带有前缀 $
的所有数字。我们可以使用这个正则表达式 (?<=\$)[0-9\.]*
,表示: 获取包含 .
字符且前缀为 $
的所有数字。 以下是正则表达式中使用的断言:
符号 | 描述 |
---|---|
?= | 正向先行断言 |
?! | 负向先行断言 |
?<= | 正向后行断言 |
?<! | 负向后行断言 |
5.1 正向先行断言
正向先行断言认为第一部分的表达式必须是先行断言表达式。返回的匹配结果仅包含与第一部分表达式匹配的文本。 要在一个括号内定义一个正向先行断言,在括号中问号和等号是这样使用的 (?=...)
。先行断言表达式写在括号中的等号后面。 例如正则表达式 (T|t)he(?=\sfat)
,表示: 匹配大写字母 T
或小写字母 t
,后面跟字母 h
,后跟字母 e
。 在括号中,我们定义了正向先行断言,它会引导正则表达式引擎匹配 The
或 the
后面跟着 fat
。
"(T|t)he(?=\sfat)" => 'The' fat cat sat on the mat.
5.2 负向先行断言
当我们需要从输入字符串中获取不匹配表达式的内容时,使用负向先行断言。负向先行断言的定义跟我们定义的正向先行断言一样, 唯一的区别是不是等号 =
,我们使用否定符号 !
,例如 (?!...)
。 我们来看看下面的正则表达式 (T|t)he(?!\sfat)
,表示: 从输入字符串中获取全部 The
或者 the
且不匹配 fat
前面加上一个空格字符。
"(T|t)he(?!\sfat)" => The fat cat sat on 'the' mat.
5.3 正向后行断言
正向后行断言是用于获取在特定模式之前的所有匹配内容。正向后行断言表示为 (?<=...)
。例如正则表达式 (?<=(T|t)he\s)(fat|mat)
,表示: 从输入字符串中获取在单词 The
或 the
之后的所有 fat
和 mat
单词。
"(?<=(T|t)he\s)(fat|mat)" => The 'fat' cat sat on the 'mat'.
5.4 负向后行断言
负向后行断言是用于获取不在特定模式之前的所有匹配的内容。负向后行断言表示为 (?<!...)
。例如正则表达式 (?<!(T|t)he\s)(cat)
,表示: 在输入字符中获取所有不在 The
或 the
之后的所有单词 cat
。
"(?<!(T|t)he\s)(cat)" => The cat sat on 'cat'.
6. 标记
标记也称为修饰符,因为它会修改正则表达式的输出。这些标志可以以任意顺序或组合使用,并且是正则表达式的一部分。
标记 | 描述 |
---|---|
i | 不区分大小写: 将匹配设置为不区分大小写。 |
g | 全局搜索: 搜索整个输入字符串中的所有匹配。 |
m | 多行匹配: 会匹配输入字符串每一行。 |
6.1 不区分大小写
i
修饰符用于执行不区分大小写匹配。例如正则表达式 /The/gi
,表示: 大写字母 T
,后跟小写字母 h
,后跟字母 e
。 但是在正则匹配结束时 i
标记会告诉正则表达式引擎忽略这种情况。正如你所看到的,我们还使用了 g
标记,因为我们要在整个输入字符串中搜索匹配。
"The" => 'The' fat cat sat on the mat.
"/The/gi" => 'The' fat cat sat on 'the' mat.
6.2 全局搜索
g
修饰符用于执行全局匹配 (会查找所有匹配,不会在查找到第一个匹配时就停止)。 例如正则表达式 /.(at)/g
,表示: 除换行符之外的任意字符,后跟小写字母 a
,后跟小写字母 t
。 因为我们在正则表达式的末尾使用了 g
标记,它会从整个输入字符串中找到每个匹配项。
".(at)" => The 'fat' cat sat on the mat.
"/.(at)/g" => The 'fat' 'cat' 'sat' on the 'mat'.
6.3 多行匹配
m
修饰符被用来执行多行的匹配。正如我们前面讨论过的 (^, $)
,使用定位符来检查匹配字符是输入字符串开始或者结束。但是我们希望每一行都使用定位符,所以我们就使用 m
修饰符。 例如正则表达式 /at(.)?$/gm
,表示: 小写字母 a
,后跟小写字母 t
,匹配除了换行符以外任意字符零次或一次。而且因为 m
标记,现在正则表达式引擎匹配字符串中每一行的末尾。
"/.at(.)?$/" => The fat
cat sat
on the 'mat.'
"/.at(.)?$/gm" => The 'fat'
cat 'sat'
on the 'mat.'
7. 常用正则表达式
- 正整数:
^\d+$
- 负整数:
^-\d+$
- 电话号码:
^+?[\d\s]{3,}$
- 电话代码:
^+?[\d\s]+(?[\d\s]{10,}$
- 整数:
^-?\d+$
- 用户名:
^[\w\d_.]{4,16}$
- 字母数字字符:
^[a-zA-Z0-9]*$
- 带空格的字母数字字符:
^[a-zA-Z0-9 ]*$
- 密码:
^(?=^.{6,}$)((?=.*[A-Za-z0-9])(?=.*[A-Z])(?=.*[a-z]))^.*$
- 电子邮件:
^([a-zA-Z0-9._%-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4})*$
- IPv4 地址:
^((?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?))*$
- 小写字母:
^([a-z])*$
- 大写字母:
^([A-Z])*$
- 网址:
^(((http|https|ftp):\/\/)?([[a-zA-Z0-9]\-\.])+(\.)([[a-zA-Z0-9]]){2,4}([[a-zA-Z0-9]\/+=%&_\.~?\-]*))*$
- VISA 信用卡号码:
^(4[0-9]{12}(?:[0-9]{3})?)*$
- 日期 (MM/DD/YYYY):
^(0?[1-9]|1[012])[- /.](0?[1-9]|[12][0-9]|3[01])[- /.](19|20)?[0-9]{2}$
- 日期 (YYYY/MM/DD):
^(19|20)?[0-9]{2}[- /.](0?[1-9]|1[012])[- /.](0?[1-9]|[12][0-9]|3[01])$
- 万事达信用卡号码:
^(5[1-5][0-9]{14})*$
8. 在Python中的应用
re模块操作
在Python中需要通过正则表达式对字符串进行匹配的时候,可以使用一个模块,名字为re
re模块的使用过程
#coding=utf-8
# 导入re模块
import re
# 使用match方法进行匹配操作
result = re.match(正则表达式,要匹配的字符串)
# 如果上一步匹配到数据的话,可以使用group方法来提取数据
result.group()
re.match 是用来进行正则表达式匹配检查的方法,若字符串匹配正则表达式,则match方法返回匹配对象(Match Object),否则返回None(注意不是空字符串”“)。
匹配对象Match Object具有group方法,用来返回字符串的匹配部分
re模块示例(匹配以itcast开头的语句)
#coding=utf-8
import re
result = re.match('itcast','itcast.cn')
result.group()
运行结果为:
itcast
re模块的高级用法
search
re.search函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回None。
格式:re.search(pattern, string, flags=0)
需求:匹配出文章阅读的次数
#coding=utf-8
import re
ret = re.search(r"\d+", "阅读次数为 9999")
ret.group()
运行结果:
'9999'
match()和search()的区别:
match()函数只检测RE是不是在string的开始位置匹配,search()会扫描整个string查找匹配;
也就是说match()只有在0位置匹配成功的话才有返回,如果不是开始位置匹配成功的话,match()就返回none。
如:print(re.match(‘super’, ‘superstition’).span()) 会返回(0, 5)
print(re.match(‘super’, ‘insuperable’)) 则返回None
如:print(re.search(‘super’, ‘superstition’).span())返回(0, 5)
print(re.search(‘super’, ‘insuperable’).span())返回(2, 7)
findall
re.findall遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表。
格式:re.findall(pattern, string, flags=0)
需求:统计出python、c、c++相应文章阅读的次数
#coding=utf-8
import re
ret = re.findall(r"\d+", "阅读次数:9999次,转发次数:883次,评论次数:3次")
print(ret)
运行结果:
['9999', '883', '3']
sub 将匹配到的数据进行替换
使用re替换string中每一个匹配的子串后返回替换后的字符串。
格式:re.sub(pattern, repl, string, count)
需求:将匹配到的阅读次数加1
方法1:
#coding=utf-8
import re
ret = re.sub(r"\d+", "10000", "阅读次数:9999次,转发次数:883次,评论次数:3次")
print(ret)
运行结果:
阅读次数:10000次,转发次数:10000次,评论次数:10000次
方法2:
#coding=utf-8
import re
def add(temp):
strNum = temp.group()
num = int(strNum) + 1
return str(num)
ret = re.sub(r"\d+", add, "python = 997")
print(ret)
ret = re.sub(r"\d+", add, "python = 99")
print(ret)
运行结果:
python = 998
python = 100
Python对正则表达式的支持
函数 | 说明 |
---|---|
compile(pattern, flags=0) | 编译正则表达式返回正则表达式对象 |
match(pattern, string, flags=0) | 用正则表达式匹配字符串 成功返回匹配对象 否则返回None |
search(pattern, string, flags=0) | 搜索字符串中第一次出现正则表达式的模式 成功返回匹配对象 否则返回None |
split(pattern, string, maxsplit=0, flags=0) | 用正则表达式指定的模式分隔符拆分字符串 返回列表 |
sub(pattern, repl, string, count=0, flags=0) | 用指定的字符串替换原字符串中与正则表达式匹配的模式 可以用count指定替换的次数 |
fullmatch(pattern, string, flags=0) | match函数的完全匹配(从字符串开头到结尾)版本 |
findall(pattern, string, flags=0) | 查找字符串所有与正则表达式匹配的模式 返回字符串的列表 |
finditer(pattern, string, flags=0) | 查找字符串所有与正则表达式匹配的模式 返回一个迭代器 |
purge() | 清除隐式编译的正则表达式的缓存 |
re.I / re.IGNORECASE | 忽略大小写匹配标记 |
re.M / re.MULTILINE | 多行匹配标记 |
说明: 上面提到的re模块中的这些函数,实际开发中也可以用正则表达式对象的方法替代对这些函数的使用,如果一个正则表达式需要重复的使用,那么先通过compile函数编译正则表达式并创建出正则表达式对象无疑是更为明智的选择。