文章目录
0x00 | 前言
本文简单介绍了PCRE2
正则表达式语法,然后简单介绍并提供了在Python
与C++
标准库中正则表达式的使用例。
0x01 | 什么是正则表达式
正则表达式(Regular Expression,可简写为regex
或re
),正则表达式一般使用单个字符串来描述、匹配一系列符合某个语法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。
正则表达式通常用于从某一文本中提取特定的字符串,或者检验字符串的格式等。
需要注意的是,由于其实现原理,即便进行了预编译,正则表达式通常仍是缓慢的。
0x02 | 正则表达式的语法
-
限定符
1.
?
a?
表示匹配过程中字符/字符串a
可有可无,有则匹配。*
a*
表示字符/字符串a
可有可无,有多个连续的字符/字符串a`则匹配。+
a+
表示字符/字符串必须存在,匹配单独或连续出现的字符/字符串a
。{...}
是限定符
+
的增强版,a{n,m}
表示匹配连续出现 ( n , m ) (n,m) (n,m)次的字符/字符串a
。另外,你也可以单独指定其下限,例如
a{n,}
,表示匹配连续出现了至少n
次的字符/字符串a
。 -
或运算
正则表达式中的或运算符为
|
,同时可以使用(
与)
为其限定范围。另外,为了避免出错,我建议将所有或运算包在
(
与)
之间。 -
字符类
字符类允许你匹配列出的字符所构成的所有字符/字符串。在实际使用中,其后往往需要跟随限定符,例如
[a-z]+
,表示匹配由a
到z
的所有小写字母中的任意几个组成的字符/字符串。例如,下述四个字符类从上自下依次表示:
-
由
a
,b
,c
三种字母中的任意几个组成的字符/字符串。 -
由
a
到z
的26
个小写字母中的任意几个组成的字符/字符串。 -
由所有大/小写字母和所有数组中的任意几个组成的字符/字符串。
-
不含有
a
到y
的25
个字母中的任何一个的字符/字符串。
[abc] [a-z] [a-zA-Z0-9] [^a-y]
-
-
元字符
在实际应用中,我们所处理的字符/字符串类型往往纷繁复杂,为此,正则表达式为我们规定了一些元字符,用于直接表示某些常见但却难以用其他常规手段表示的字符/字符串。例如数字,单词开头,单词结尾。
类似占位符,正则表达式中的绝大部分元字符都以反斜杠
\
开头,其中部分内容如下,其中的`代表字符/字符串。元字符 释义 \d 表示数字,等价于 [0-9]
\w 表示单词,等价于 [a-zA-Z0-9_]
\s 表示空白符,同时包含制表符和换行符 \D 表示非数字字符 \W 表示非单词字符 . 表示除换行符外的任意字符 ^ 特殊元字符,表示匹配行首的 <str>
$ 特殊元字符,表示匹配行尾的 <str>
-
贪婪和懒惰匹配
正则表达式的匹配模式分为贪婪匹配和懒惰匹配。简单地说,贪婪匹配试图在合乎要求的前提下匹配尽可能多的字符,而懒惰匹配则使v到的字符尽可能少。
在正则表达式中,直接输入限定符进行的匹配全部都是贪婪匹配。例如对于字符串
[...]<p>hello world!</p>[...]
,当我们使用正则表达式<.+>
进行匹配,结果为hello world!
,这时进行了匹配尽可能多的字符的贪婪匹配;而当我们将正则表达式修改为<.+?>
时,便进行了匹配尽可能少的字符的懒惰匹配,这时的结果为<p>
和</p>
。
0x03 | Python中的re库
Python自带了一个正则表达式模块,其名为re
,下面是该库的一个简单示例。
import re
str = "hello world! I'm happy and I love regex!"
reg = "[helopay]+"
# re.compile 函数
# 用于编译正则表达式
# 使用编译后的正则表达式对象相较于直接使用正则字符串有明显的性能提升
compiled_pattern = re.compile(reg)
# re.match函数
# 从字符串的开始进行匹配,若字符串从开始就不符合正则表达式则返回None
# 只会返回第一个匹配项
print(re.match(compiled_pattern ,str).group())
# re.search函数
# 对整个字符串进行匹配,直到找到匹配项或者读到尾部
# 只会返回第一个匹配项
print(re.search(compiled_pattern ,str).group())
# re.findall函数
# 返回由所有匹配项组成的列表
print(re.findall(compiled_pattern ,str))
# re.finditer函数
# 类似findall,但返回迭代器
it = re.finditer(compiled_pattern,str)
for match in it:
print(match.group)
# re.sub函数
# 用于替换字符串中的匹配项
# 其中,count表示匹配替换的最大次数,默认为0,表示全部替换
re.sub(compiled_pattern ,"替换的字符串,也可以是一个函数",str,count=0)
# re.split函数
# 按能匹配的子串对原字符串进行分割,然后返回列表
print(re.split(compiled_pattern,str))
0x04 | C++标准库中的regex
标准
std::regex
是C++ 11
的特性,请确保你的编译器支持且已打开C++ 11
标准。
正则表达式对象
regex
库是围绕着std::regex
类运行的,你可以通过如下形式创建一个正则表达式对象。
std::regex reg("<.*>.*</.*>");
需要注意的是,regex
库中数据(指正则表达式对象 )与算法是分离的,应该使用std::regex_match
等函数进行正则操作。
正则语法支持
regex
库支持以下六种正则表达式语法:
-
ECMAScript(默认)
-
basic
-
extended
-
awk
-
grep
-
egrep
你可以通过如下语句手动指定正则语法:
regex e("^a.",regex_constants::grep);
匹配操作
std::regex_match
函数实现了正则匹配功能。
该函数会严格地检查字符串是否符合正则表达式所表示的格式,符合则返回true
,否则false
。
std::regex reg("<.*>.*</.*>");
std::cout << (std::regex_match("<p>hello</p>", reg) ? "true" : "false") << '\n';
搜索操作
std::regex_search
函数实现了正则搜索功能。
该函数会检查是否有匹配项并将其全部返回,与std::regex_match
不同的是,该函数并不会严格的要求字符串必须符合正则表达式所表示的格式,只是进行搜索。
std::regex reg("<(.*)>(.*)</(\\1)>");
std::cmatch matches;
if (std::regex_search("certain str...<p>world</p>456", matches, reg))
{
for (auto& item : m)
std::cout << item << '\n';
}
替换操作
std::regex_replace
函数提供了正则替换功能。
该函数会将字符串中匹配到的部分全部替换为指定的字符串。
char str[] = "\"C++\" in C++ is good, I mean \"C++\" for sure!";
std::regex reg("\".*\"");
std::cout << std::regex_replace(str, reg, "Regex") << '\n';
分词操作
regex_token_iterator
函数提供了正则分词功能。
该函数会将字符串按照匹配到的字符串位置进行分割。
std::string str("Regex;is;good;!");
std::regex reg(";");
std::sregex_token_iterator pos(std::begin(str), std::end(str), reg, -1);
decltype(pos) end;
for (; pos != end; ++pos)
{
std::cout << pos->str() << std::endl;
}