概念
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这 些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一 种过滤逻辑(可以用来做检索,截取或者替换操作)。
正则表述式用于搜索、替换和解析字符串。正则表达式遵循一定的语法规则,使用非常 灵活,功能强大。使用正则表达式编写一些逻辑验证非常方便,例如电子邮件地址格式的验证。
正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符)操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规 则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑,正则表达式是一种文 本模式,模式描述在搜索文本时要匹配一个或多个字符串。
作用
- 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”)。
- 可以通过正则表达式,从字符串中获取我们想要的特定部分。
- 还可以对目标字符串进行替换操作。
正则表达式的使用
Python 语言通过标准库中的 re 模块支持正则表达式。re 模块提供了一些根据正则表达式进行查找、替换、分隔字符串的函数,这些函数使用一个正则表达式作为第一个参数。re 模块常用的函数如下表所示。
re 模块常用的函数
函数 |
描述 |
match(pattern,string,flags=0) |
根据 pattern 从 string 的头部开始匹配字符串,只返回第 1 次匹配成功的对 象;否则,返回 None |
findall(pattern,string,flags=0) |
根据 pattern 在 string 中匹配字符串。如果匹配成功,返回包含匹配结果的列表;否则,返回空列表。当 pattern 中有分组时,返回包含多个元组的列表,每个元组对应 1 个分组。flags 表示规则选项,规则选项用于辅助匹 配。 |
sub(pattern,repl,string,count=0) |
根据指定的正则表达式,替换源字符串中的子串。pattern 是一个正则表达式,repl 是用于替换的字符串,string 是源字符串。如果 count 等于 0,则 返回 string 中匹配的所有结果;如果 count 大于 0,则返回前 count 个匹配 |
结果 |
|
subn(pattern,repl,string,count=0) |
作用和 sub()相同,返回一个二元的元组。第 1 个元素是替换结果,第 2 个元素是替换的次数 |
search(pattern,string,flags=0) |
根据 pattern 在 string 中匹配字符串,只返回第 1 次匹配成功的对象。如果 匹配失败,返回 None |
compile(pattern,flags=0) |
编译正则表达式 pattern,返回 1 个pattern 的对象 |
split(pattern,string,maxsplit=0) |
根据 pattern 分隔 string,maxsplit 表示最大的分隔数 |
escape(pattern) |
匹配字符串中的特殊字符,如*、+、?等 |
match 方法
re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,
match()就返回 None。语法格式如下:
函数参数说明如下表所示:
match 函数参数说明
参数 |
描述 |
pattern |
匹配的正则表达式 |
string |
要匹配的字符串。 |
flags |
标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。如 下表列出正则表达式修饰符 - 可选标志 |
正则表达式修饰符 - 可选标志
修饰符 |
描述 |
re.I |
使匹配对大小写不敏感 |
re.L |
做本地化识别(locale-aware)匹配 |
re.M |
多行匹配,影响 ^ 和 $ |
re.S </ |