正则表达式的定义
正则表达式(regex)是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。
通过使用正则表达式,可以:
- 测试字符串内的模式
例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。这称为数据验证。 - 替换文本
可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。 - 基于模式匹配从字符串中提取子字符串
可以查找文档内或输入域内特定的文本。
1.元字符
正则表达式主要依赖于元字符。元字符是具有特殊含义的字符。下面是一些元字符的介绍:
元字符 | 描述 |
---|---|
^ | 匹配字符串的开头 |
$ | 匹配字符串的末尾 |
. | 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符.也可以使用(.| \n) |
[ ] | 匹配方括号内的任意字符。[abc]匹配’a’,‘b’或’c’。 方括号中的句号就表示句号,ab[.]就匹配’ab.'字符串 |
[^ ] | 否定的字符种类. 匹配除了方括号里的任意字符[^abc]匹配除了a,b,c之外的字符 |
* | 匹配>=0个重复的在’*'号之前的字符. |
+ | 匹配>=1个重复的’+'号前的字符. |
? | 标记’?'之前的字符为可选.(0个或1个,非贪婪模式) |
{n} | 精确匹配n个前面表达式. 例如,l{2} 不能匹配 “lot” 中的 “l”,但是能匹配 “hello” 中的两个l。 |
{n,} | 配n个前面表达式。例如, o{2,} 不能匹配"lot"中的"l",但能匹配 "helllllllo"中的所有 l 。“o{1,}” 等价于 “o+”。“o{0,}” 则等价于 “o*”。 |
{n,m} | 匹配num个大括号之前的字符 (n <= num <= m),贪婪模式. |
a |b | 匹配a或b |
\ | 转义字符,用于匹配一些保留的字符 [ ] ( ) { } . * + ? ^ $ \ | |
(pattern) | 对正则表达式分组并记住匹配的文本 |
(?:pattern) | 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 “或” 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y | ies) 就是一个比 ‘industry | industries’ 更简略的表达式。 |
a(?=b) | 匹配后面有b的a |
a(?!=b) | 匹配后面没有b的a |
(?<=a)b | 匹配前面有a的b |
(?<!a)b | 匹配前面没有a的b |
(?|pattern) | 正向否定预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,该匹配不需要获取供以后使用。 |
\w | 匹配字母数字及下划线,等价于’[A-Za-z0-9_]’ |
\W | 匹配非字母数字及下划线,等价于 ‘[^A-Za-z0-9_]’ |
\s | 匹配任意空白字符,等价于[\f\n\r\t\v] |
\S | 匹配任意非空字符,等价于 [^\f\n\r\t\v] |
\f | 匹配一个换页符。等价于 \x0c 和 \cL。 |
\v | 匹配一个垂直制表符。等价于 \x0b 和 \cK。 |
\n | 匹配一个换行符。等价于 \x0a 和 \cJ。 |
\r | 匹配一个回车符。等价于 \x0d 和 \cM。 |
\p | 匹配 CR/LF (等同于 \r\n),用来匹配 DOS 行终止符 |
\d | 匹配任意数字,等价于 [0-9]. |
\D | 匹配任意非数字, [^0-9] |
\A | 匹配字符串开始 |
\Z | 匹配字符串结束,如果存在换行,只匹配到换行前的结束字符串。 |
\z | 匹配字符串结束 |
\G | 匹配最后匹配完成的位置。 |
\b | 匹配一个单词边界,也就是指单词和空格间的位置。例如,‘er\b’ 可以匹配"never" 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。 |
\B | 匹配非单词边界。‘er\B’ 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’。 |
2. 标志
标志 | 描述 |
---|---|
i | 忽略大小写 |
g | 全局搜索 |
m | 多行的: 锚点元字符 ^ $ 工作范围在每行的起始. |
3. 贪婪匹配与惰性匹配
贪婪模式
“/(.*at)/” => The fat cat sat on the mat.
惰性匹配
“/(.*?at)/” =>The fat cat sat on the mat.
4. Python正则表达式
Python从1.5模块起增加了re模块,他使Python语言拥有全部的正则表达式功能
4.1 re.match(pattern, string, flags=0)
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
参数 | 描述 |
---|---|
pattern | 匹配的正则表达式 |
string | 要匹配的字符串 |
flags | 标志位,用于控制正则表达式的匹配方式 |
如果匹配成功,re.match()会返回一个匹配的对象,否则返回None。我们可以使用group(num)或groups()来获取匹配表达式
匹配对象方法 | 描述 |
---|---|
group(num=0) | 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。 |
groups() | 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。 |
group()返回被匹配的字符串
- start() 返回匹配开始的位置
- end() 返回匹配结束的位置
- span()返回一个元组包含匹配 (开始,结束) 的位置
import re
line ="Cats are smarter than dogs"
matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)
print(matchObj.group(1,2)) # ('Cats', 'smarter')
4.2 re.search(pattern, string, flags=0)
re.search 扫描整个字符串并返回第一个成功的匹配。re.search()与re.match()参数类似,返回对象相同。re.search()扫描整个字符串,而re.match()只能从字符串起始位置匹配
4.3 re.sub(pattern, repl, string, count=0, flags=0)
re.sub用于替换字符串中的匹配项
- repl:替换的字符串,也可以为一个函数(必须传递Match对象,返回要使用的替换字符串)
- count:模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
4.4 re.compile(pattern[, flags])
compile函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
修饰符 | 描述 |
---|---|
re.I | 使匹配对大小写不敏感 |
re.L | 做本地化识别(locale-aware)匹配 |
re.M | 多行匹配,影响 ^ 和 $ |
re.S | 使 . 匹配包括换行在内的所有字符 |
re.U | 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B. |
re.X | 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解 |
4.5 findall(string[, pos[, endpos]])
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。 match 和 search 是匹配一次 findall 匹配所有。
- pos:可选参数,指定字符串的起始位置,默认为 0。
- endpos:可选参数,指定字符串的结束位置,默认为字符串的长度。
4.6 re.finditer(pattern, string, flags=0)
和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。
4.7 re.split(pattern, string[, maxsplit=0, flags=0])
split方法按照能够匹配的子串将字符串分割后返回列表
- maxsplit:分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。