c++ 崩溃 正则表达式regex_C++正则表达式 <regex>

一 简介

概括而言,使用正则表达式处理字符串的流程包括:

用正则表达式定义要匹配的字符串的规则,

然后对目标字符串进行匹配,

最后对匹配到的结果进行操作。

C++ 的 regex 库提供了用于表示正则表达式和匹配结果的基本类型,以及搜寻、匹配、替换等函数。

二 基本类型

2.1 basic_regex 及其实例化类型 regex、wregex

模板类型 basic_regex 用于表示正则表达式对象, 库提供了它的两种实例化类型:

typedef basic_regex regex;

typedef basic_regex wregex;

构造函数一般接受一个字符串作为参数,如

std::regex reg ("[0-9A-Z]+");

构造函数中还有一个默认参数flags,默认值为 std::regex::ECMAScript,该参数可以用来设置正则表达式所采用的语法,如 std::regex::grep, std::regex::awk 等,也可以设置 case insensitive。flags 的多个值用比特位 OR 操作|连接,如

std::regex ninth ("\\bd\\w+", ECMAScript | icase );

但是正则语法的flag只能设置一种。

2.2 match_results、sub_match 及其实例化类型

match_results 是一种 container-like 的模板类,用于存放对目标串执行完 regex matching 操作后匹配到的结果,其中的每个元素(即每个匹配结果)是一个 sub_match 的实例化对象。

match_results 的实例类型有下列四种:

typedef match_results cmatch;

typedef match_results wcmatch;

typedef match_results<:const_iterator> smatch;

typedef match_results<:const_iterator> wsmatch;

与 match_results 相似,sub_match 的实例化类型也有四种:

typedef sub_match csub_match;

typedef sub_match wcsub_match;

typedef sub_match<:const_iterator> ssub_match;

typedef sub_match<:const_iterator> wssub_match;

sub_match 对象存储的不是匹配到的字符串本身,而是指向这个串开始(initial)和结束后一个字符(past-the-end)的 bidirectional iterators,但是它们表现起来类似于一个字符串:

成员函数 length 返回字符串长度;

compare 用于和一个字符串或另一个 sub_match 对象比较,相等则返回0,不等则:若它比参数小(字典序)返回一个负值,否则返回一个正值;

str 返回对应的字符串。

根据一次匹配的结果,match_results 可能为空也可能不空,使用 match_results::empty() 来判空,使用 match_results::size() 来获取元素个数。对于一个不空的 match_results 对象,其第一个 sub_match 元素([0])对应着整个完整匹配,后续的元素对应着正则表达式中的 sub-match(即用()括起来的各个分组匹配),未匹配的部分可以通过 prefix 和 suffix 来获取。下面是一个简单的例子,参考自 boost的文档:

#include

#include

#include

int main() {

std::string target = "@abc def--";

std::regex e("(\\w+)\\W+(\\w+)");

std::smatch sm;

std::regex_search(target, sm, e);

std::cout << "sm.prefix: " << sm.prefix() << std::endl;

for (int i = 0; i < sm.size(); ++i) {

std::cout << "sm[" << i << "]: " << sm[i] << std::endl;

}

std::cout << "sm.suffix: " << sm.suffix() << std::endl;

return 0;

}

Output:

======================================

sm.prefix: @

sm[0]: abc def

sm[1]: abc

sm[2]: def

sm.suffix: --

三 正则操作

3.1 regex_match

用于将目标串和正则表达式匹配,返回一个 bool 值,true 为匹配,false 为不匹配。匹配的含义是目标字符串必须完全和正则表达式相匹配,不能有多余的字符,如果需要部分匹配则应使用regex_search。函数签名有很多,详见cplusplus.com。

构造函数分成两种:

一种接受一个 match_results 作为对象,参数顺序为:

- 待匹配的字符串,

- match_results 对象,

- 正则表达式对象;

另一种没有 match_results,参数顺序为:

- 待匹配的字符串,

- 正则表达式对象。

此外,构造函数还接受一个可选的 flags 参数,用于控制匹配选项,详见上述链接。

3.2 regex_search

只要目标字串中有一个字串(无论该子串在字符串中什么位置)能和正则表达式相匹配就返回true。函数签名同regex_match相似。

3.3 regex_replace

该函数有多个重载版本,常用的版本中参数顺序基本上为 s,rgx,fmt,flags,其中:

s 为要处理的字符串,

rgx 为要匹配的正则表达式,

fmt 为要替换的字符串,其中可以包含格式化字符,

flags为可选的参数,用于设置一些选项。

参数 fmt 中可以包含下列格式化字符:

characters

replacement

$n

表示第n组匹配,n大于0

$&

表示整个匹配

$`

prefix

suffix

$$

表示$这个字符本身

在替换时,会先将参数 fmt 中的格式化字符替换成相应的内容,然后再将这个字符串替换掉目标字符串中的完整匹配(相当于 $& 或 match_results[0])。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值