C++11 之 regex 正则表达式

最新推荐文章于 2025-10-19 14:20:44 发布

原创最新推荐文章于 2025-10-19 14:20:44 发布 · 3.9k 阅读

13 ·

CC 4.0 BY-SA版权

C++/C 专栏收录该内容

51 篇文章

订阅专栏

本文详细介绍了C++11中的正则表达式功能，包括regex_match、regex_search、regex_replace等函数的使用方法，并通过实例展示了如何解析CSV文件。

部署运行你感兴趣的模型镜像

C++11 ： regex 正则表达式

正则表达式参考书正则表达式30分钟入门教程
一个在线检查正则表达式的网址 Regular Expressions

C++ 11 中定义了使用正则表达式来进行字符串匹配的库，头文件#include <regex>
可以参照正则表达式库

本文参考 Cpp标准库之 std::regex 类的使用

举个最简单的例子

#include <regex>
int main() {
    using namespace std;

    string str = "789.123.456";
    regex myExp("(.*)\.123\.456");
    smatch matchResult;
    regex_match(str, matchResult, myExp);

    if (std::regex_match(str, matchResult, myExp)) {
        cout << "Match: ";
        for (size_t i = 1; i < matchResult.size(); ++i)
        {
            cout << matchResult[i] << " ";
        }
    }
    else {
        cout << "Not Match!";
    }
}

输出
Match: 789

1. `std::regex_match`

正则表达式需要匹配整个字符串序列，也就是说正则表达式要与字符串完全匹配。因此，它是单次匹配，否则匹配失败

regex reg1("\\w+day");
string s1 = "saturday";
string s2 = "saturday and sunday";
smatch r1;
smatch r2;
cout << boolalpha << regex_match(s1, r1, reg1) << endl;
cout << boolalpha << regex_match(s2, r2, reg1) << endl;
cout << "s1匹配结果：" << r1.str() << endl;
cout << "s2匹配结果：" << r2.str() << endl;
cout << endl;

输出：

true
false
s1匹配结果：saturday
s2匹配结果：

想返回多个匹配结果，要使用iterator

//使用iterator返回多个匹配结果
//结果要用->
cout << "iterator结果：" << endl;
sregex_iterator it(s2.begin(), s2.end(), reg1);
sregex_iterator end;
for (; it != end; ++it)
{
    cout << it->str() << endl;
    //cout << *it << endl; 错误
}

cout << "token_iterator结果：" << endl;
sregex_token_iterator tit(s2.begin(), s2.end(), reg1);
sregex_token_iterator tend;
for (; tit != tend; ++tit)
{
    cout << tit->str() << endl;
    cout << *tit << endl;
}

输出：

iterator结果：
saturday
sunday
token_iterator结果：
saturday
saturday
sunday
sunday

如果用子表达式匹配

regex reg2("(\\d{1,3}):(\\d{1,3}):(\\d{1,3}):(\\d{1,3})");
    string ip = "0:11:222:333";
    smatch m; 
    regex_match(ip, m, reg2);
    cout << "输出：str()" << endl;
    cout << m.str() << endl;　　 //0:11:222:333
    cout << m.str(1) << endl;　　//0
    cout << m.str(2) << endl;　　//11
    cout << m.str(3) << endl;　　//222
    cout << m.str(4) << endl;　　//333

    cout << "输出：[i]" << endl; //结果同上
    cout << m[0] << endl;
    cout << m[1] << endl;
    cout << m[2] << endl;
    cout << m[3] << endl;
    cout << m[4] << endl;

更加详细的示例如下

void match()
{
    /////////////////////////////////////////////////////////////////////////
    //std::regex_match
    //std::regex_match: 正则表达式需要匹配整个字符串序列, 也就是说正则表达式要与
    //字符串完全匹配, 因此, 它是单次匹配, 否则匹配失败. 
    //此外, 它还可以获取子匹配的组

    std::string text = "Date:2017-10-10";

    //构造正则表达式
    //这里 "()" 用于捕获组, 捕获组的编号是按照 "(" 出现的顺序, 从左到右, 从1开始进行编号的 
    std::string pattern = "Date.(\\d{4})-(\\d{2}-(\\d{2}))";
    std::regex express(pattern);

    //匹配
    std::cout.setf(std::ios_base::boolalpha);
    /*模板函数1-1*/
    //第0组一般是整个正则表达式匹配结果, 其他依次是捕获组的结果
    //这里使用的是 std::string::iterator 迭代器, 与 begin()/ end() 返回的迭代器类型(std::string::iterator)要一致
    std::match_results<std::string::iterator> results1;
    if(std::regex_match(text.begin(), text.end(), results1, express))
    {
        std::match_results<std::string::iterator>::const_iterator iter;
        for (iter = results1.begin(); iter != results1.end(); iter++)
        {
            std::cout << iter->length() << ": " << iter->str() << std::endl;
        }
    }
    /*输出
    15: Date:2017-10-10
    4: 2017
    5: 10-10
    2: 10
    */

    /*模板函数1-2*/
    //第0组一般是整个正则表达式匹配结果, 其他依次是捕获组的结果
    //std::smatch == std::match_results<std::string::const_iterator>
    std::smatch s_results1;
    if(std::regex_match(text.cbegin(), text.cend(), s_results1, express))
    {
        std::match_results<std::string::const_iterator>::const_iterator iter;
        for (iter = s_results1.begin(); iter != s_results1.end(); iter++)
        {
            std::cout << iter->length() << ": " << iter->str() << std::endl;
        }
    }
    /*输出
    15: Date:2017-10-10
    4: 2017
    5: 10-10
    2: 10
    */

    /*模板函数2*/
    //显示字符串是否符合正则表达式, 用于检测字符串规则
    std::cout << std::regex_match(text.begin(), text.end(), express) << std::endl;

    /*模板函数3*/
    //第0组一般是整个正则表达式匹配结果, 其他依次是捕获组的结果
    //std::cmatch == std::match_results<const char*>
    std::cmatch c_results3;
    if(std::regex_match(text.c_str(), c_results3, express))
    {
        for (auto iter = c_results3.begin(); iter != c_results3.end(); iter++)
        {
            std::cout << iter->length() << ": " << iter->str() << std::endl;
        }
    }
    /*输出
    15: Date:2017-10-10
    4: 2017
    5: 10-10
    2: 10
    */

    /*模板函数4*/
    //显示字符串是否符合正则表达式, 用于检测字符串规则
    std::cout << std::regex_match(text.c_str(), express) << std::endl;

    /*模板函数5*/
    //第0组一般是整个正则表达式匹配结果, 其他依次是捕获组的结果
    std::match_results<std::string::const_iterator> s_results5;
    if(std::regex_match(text, s_results5, express))
    {
        for (size_t index = 0; index < s_results5.size(); index++)
        {
            //sub_match: 子匹配, match_results里面都存放的是sub_match
            //sub_match 可以理解为 std::pair 的扩展, 它继承了 std::pair,
            //其中 first 实际上存放的是获取的字符串头指针地址, second 为尾指针地址
            std::ssub_match sub = s_results5[index];
            std::cout << sub.length() << ": " << sub.str() << std::endl;
        }
    }
    /*输出
    15: Date:2017-10-10
    4: 2017
    5: 10-10
    2: 10
    */

    /*模板函数6*/
    //显示字符串是否符合正则表达式, 用于检测字符串规则
    std::cout << std::regex_match(text, express) << std::endl;
    /////////////////////////////////////////////////////////////////////////
}

2. `std::regex_search`

搜素正则表达式参数，但它不要求整个字符序列完全匹配。而且它只进行单次搜索，搜索到即停止继续搜索，不进行重复多次搜索。

示例如下

smatch rr1;
smatch rr2;
cout << boolalpha << regex_search(s1, rr1, reg1) << endl;　　//true
cout << "s1匹配结果：" << rr1.str() << endl; 　　　　　　　　　　//saturday
cout << boolalpha << regex_search(s2, rr2, reg1) << endl;　　//true
cout << "s1匹配结果：" << rr2.str() << endl;　　　　　　　　　　 //saturday
cout << endl;

详细示例如下

void search()
{
    /////////////////////////////////////////////////////////////////////////
    //std::regex_search
    //std::regex_search: 搜素正则表达式参数, 但它不要求整个字符序列完全匹配. 
    //而且它只进行单次搜索, 搜索到即停止继续搜索, 不进行重复多次搜索.

    std::string text = "Date:2017-10-10 ~ 2017-10-15";

    //构造正则表达式
    //这里 "()" 用于捕获组, 捕获组的编号是按照 "(" 出现的顺序, 从左到右, 从1开始进行编号的
    std::string pattern = "(\\d{4})-(\\d{2}-(\\d{2}))";
    std::regex express(pattern);

    //匹配
    std::cout.setf(std::ios_base::boolalpha);

    /*模板函数1*/
    //第0组一般是整个正则表达式匹配结果, 其他依次是捕获组的结果, 它不进行重复多次搜索
    std::match_results<std::string::iterator> results1;
    if(std::regex_search(text.begin(), text.end(), results1, express))
    {
        //使用迭代器遍历, 这里的迭代器实际上是指向 std::sub_match 的指针
        std::match_results<std::string::iterator>::const_iterator iter;
        for (iter = results1.begin(); iter != results1.end(); iter++)
        {
            std::cout << iter->length() << ": " << iter->str() << std::endl;
        }
    }
    /*输出
    10: 2017-10-10
    4: 2017
    5: 10-10
    2: 10
    */

    /*模板函数2*/
    //显示是否有搜索到符合正则表达式的结果
    std::cout << std::regex_search(text.begin(), text.end(), express) << std::endl;

    /*模板函数3*/
    //第0组一般是整个正则表达式匹配结果, 其他依次是捕获组的结果, 它不进行重复多次搜索
    std::cmatch c_results3;
    if(std::regex_search(text.c_str(), c_results3, express))
    {
        for (size_t index = 0; index < c_results3.size(); index++)
        {
            //获取组里面的数据, 注意: 这里使用的是 std::csub_match, 
            //实际上存放在 std::match_results 里面的数据就是一组 std::sub_match
            std::csub_match sub = c_results3[index];

            //先获取长度, 再获取内容
            std::cout << sub.length() << ": " << sub.str() << std::endl; 
        }
    }
    /*输出
    10: 2017-10-10
    4: 2017
    5: 10-10
    2: 10
    */

    /*模板函数4*/
    //显示是否有搜索到符合正则表达式的结果
    std::cout << std::regex_search(text.c_str(), express) << std::endl;

    /*模板函数5*/
    //第0组一般是整个正则表达式匹配结果, 其他依次是捕获组的结果, 它不进行重复多次搜索
    std::smatch s_results5;
    if (std::regex_search(text, s_results5, express))
    {
        for (auto iter = s_results5.begin(); iter != s_results5.end(); iter++)
        {
            std::cout << iter->length() << ": " << iter->str() << std::endl;
        }
    }
    /*输出
    10: 2017-10-10
    4: 2017
    5: 10-10
    2: 10
    */

    /*模板函数6*/
    //显示是否有搜索到符合正则表达式的结果
    std::cout << std::regex_search(text, express) << std::endl;
}

3. `std::regex_replace`

多次搜索整个正则表达式(不考虑捕获组)，然后替换正则表达式匹配到的结果


void replace()
{
    /////////////////////////////////////////////////////////////////////////
    //std::regex_replace
    //std::regex_replace: 

    std::string text = "Date:2017-10-10 ~ 2017-10-15";

    //构造正则表达式
    //这里 "()" 用于捕获组, 捕获组的编号是按照 "(" 出现的顺序, 从左到右, 从1开始进行编号的 
    std::string pattern = "(\\d{4})-(\\d{2}-(\\d{2}))";
    std::regex express(pattern);

    //定义存储结果变量已经替换字符
    std::string result(256, '0');
    std::string substitutes = "2017-10-12";

    /*模板函数1*/
    //多次搜索整个正则表达式(不考虑捕获组), 然后替换正则表达式匹配到的结果 
    //std::regex_replace 模板函数返回值实际上是新的字符串存入变量后尾部的指针位置, 置 0 是为了防止变量数据出错或乱码
    *std::regex_replace(result.begin(), text.begin(), text.end(), express, substitutes) = '\0';
    std::cout << result.c_str() << std::endl;
    /*输出:
    Date:2017-10-12 ~ 2017-10-12
    */

    result.clear();
    result.resize(256, '0');

    /*模板函数2*/
    //多次搜索整个正则表达式(不考虑捕获组), 然后替换正则表达式匹配到的结果 
    //std::regex_replace 模板函数返回值实际上是新的字符串存入变量后尾部的指针位置, 置 0 是为了防止变量数据出错或乱码
    result = std::regex_replace(text, express, substitutes);
    std::cout << result.c_str() << std::endl;
    /*输出:
    Date:2017-10-12 ~ 2017-10-12
    */
}

4. `std::regex_iterator`

用于多次重复匹配，不分组，只进行多次匹配整个正则表达式，可获取整个正则表达式的结果。


void iterator()
{
    /////////////////////////////////////////////////////////////////////////
    //std::regex_iterator
    //std::regex_iterator: 用于多次重复匹配, 不分组, 只进行多次匹配整个正则表达式,
    //可获取整个正则表达式的结果

    std::string text = "Date:2017-10-10 ~ 2017-10-15";

    //构造正则表达式
    //这里 "()" 用于捕获组, 捕获组的编号是按照 "(" 出现的顺序, 从左到右, 从1开始进行编号的
    std::string pattern = "(\\d{4})-(\\d{2}-(\\d{2}))";
    std::regex express(pattern);

    std::regex_iterator<std::string::const_iterator> begin(text.cbegin(), text.cend(), express);
    //std::sregex_iterator == std::regex_iterator<std::string::const_iterator>
    for (auto iter = begin; iter != std::sregex_iterator(); iter++)
    {
        std::cout << iter->length() << ": " << iter->str() << std::endl;
    }
    /*输出
    10: 2017-10-10
    10: 2017-10-15
    */
}

5. `std::regex_token_iterator`

用于多次匹配正则表达式, 它可以获取整个正则表达式的结果，也可以获取正则表达式的前缀，还可以获取正则表达式的分组子匹配.


void token_iterator()
{
    /////////////////////////////////////////////////////////////////////////
    //std::regex_token_iterator
    //std::regex_token_iterator: 用于多次匹配正则表达式, 它可以获取整个正则表达式
    //的结果, 也可以获取正则表达式的前缀, 还可以获取正则表达式的分组子匹配

    std::string text = "Date:2017-10-10 ~ 2017-10-15";

    //构造正则表达式
    //这里 "()" 用于捕获组, 捕获组的编号是按照 "(" 出现的顺序, 从左到右, 从1开始进行编号的
    std::string pattern = "(\\d{4})-(\\d{2}-(\\d{2}))";
    std::regex express(pattern);

    /*构造函数2-1*/
    //(多次匹配)显示正则表达式匹配, 即参数 4 等于 0
    std::regex_token_iterator<std::string::const_iterator> begin2_1(text.cbegin(), text.cend(), express);
    //std::sregex_token_iterator == std::regex_token_iterator<std::string::const_iterator>
    for (auto iter = begin2_1; iter != std::sregex_token_iterator(); iter++)
    {
        std::cout << iter->length() << ": " << iter->str() << std::endl;
    }
    /*输出
    10: 2017-10-10
    10: 2017-10-15
    */

    /*构造函数2-2*/
    //(多次匹配)显示正则表达式匹配到的前缀, -1 则表示只显示前缀
    std::regex_token_iterator<std::string::const_iterator> begin2_2(text.cbegin(), text.cend(), express, -1);
    for (auto iter = begin2_2; iter != std::sregex_token_iterator(); iter++)
    {
        std::cout << iter->length() << ": " << iter->str() << std::endl;
    }
    /*输出
    5: Date:
    3:  ~
    */

    /*构造函数2-3*/
    //(多次匹配)显示正则表达式子匹配, 3 表示第三组子匹配
    std::regex_token_iterator<std::string::const_iterator> begin2_3(text.cbegin(), text.cend(), express, 3);
    for (auto iter = begin2_3; iter != std::sregex_token_iterator(); iter++)
    {
        std::cout << iter->length() << ": " << iter->str() << std::endl;
    }
    /*输出
    2: 10
    2: 15
    */

    /*构造函数3*/
    //(多次匹配)显示正则表达式匹配到的前缀和子匹配, -1 表示前缀, 2 表示第二个子匹配
    std::vector<int> vec;
    vec.push_back(-1);
    vec.push_back(2);
    std::regex_token_iterator<std::string::iterator> begin3(text.begin(), text.end(), express, vec);
    for (auto iter = begin3; iter != std::regex_token_iterator<std::string::iterator>(); iter++)
    {
        std::cout << iter->length() << ": " << iter->str() << std::endl;
    }
    /*输出
    5: Date:
    5: 10-10
    3:  ~
    5: 10-15
    */

    /*构造函数4*/
    //(多次匹配)显示正则表达式匹配到的前缀和整个正则表达式匹配, -1 表示前缀, 0 表示匹配整个正则表达式.
    int arr[] = {-1, 0};
    std::regex_token_iterator<std::string::iterator> begin4(text.begin(), text.end(), express, arr);
    for (auto iter = begin4; iter != std::regex_token_iterator<std::string::iterator>(); iter++)
    {
        std::cout << iter->length() << ": " << iter->str() << std::endl;
    }
    /*输出
    5: Date:
    10: 2017-10-10
    3:  ~
    10: 2017-10-15
    */
}

捕获所有的匹配部分

#include<iostream>
#include<vector>
#include<string>
#include<regex>
#include <iterator>
int main() 
{
    std::string strng("1,12,3,4,5,6,2,3,4,5");
    std::regex re(",");
    std::sregex_token_iterator p(strng.begin(), strng.end(), re, -1);
    std::sregex_token_iterator end;
    std::vector<std::string> vec;
    while (p != end)
        vec.push_back(*p++);
    std::copy(vec.begin(),vec.end(),std::ostream_iterator<std::string>(std::cout," "));
    std::cout<<std::endl;
    return 0;
}

6. 实战解析csv文件

csv文件一般都是以逗号隔开，单纯简单的以逗号做分隔符，如下代码所示。

int main()  
{  
    // 写文件  
    ofstream outFile;  
    outFile.open("data.csv", ios::out); // 打开模式可省略  
    outFile << "name" << ',' << "age" << ',' << "hobby" << endl;  
    outFile << "Mike" << ',' << 18 << ',' << "paiting" << endl;  
    outFile << "Tom" << ',' << 25 << ',' << "football" << endl;  
    outFile << "Jack" << ',' << 21 << ',' << "music" << endl;  
    outFile.close();  

    // 读文件  
    ifstream inFile("data.csv", ios::in);  
    string lineStr;  
    vector<vector<string>> strArray;  
    while (getline(inFile, lineStr))  
    {  
        // 打印整行字符串  
        cout << lineStr << endl;  
        // 存成二维表结构  
        stringstream ss(lineStr);  
        string str;  
        vector<string> lineArray;  
        // 按照逗号分隔  
        while (getline(ss, str, ','))  
            lineArray.push_back(str);  
        strArray.push_back(lineArray);  
    }  

    getchar();  
    return 0;  
}

如果碰到里面的单词本身就有逗号，就会出错。例如
"234", "Lee Jack", "Fort myers, FL"
这个时候可以使用正则表达式",(?=([^\"]*\"[^\"]*\")*[^\"]*$)"

#include<iostream>
#include<vector>
#include<string>
#include<regex>
#include <iterator>
int main() 
{
    std::string strng("234", "Lee Jack", "Fort myers, FL");
    std::regex re(",(?=([^\"]*\"[^\"]*\")*[^\"]*$)");
    std::sregex_token_iterator p(strng.begin(), strng.end(), re, -1);
    std::sregex_token_iterator end;
    std::vector<std::string> vec;
    while (p != end)
        vec.push_back(*p++);
    std::copy(vec.begin(),vec.end(),std::ostream_iterator<std::string>(std::cout," "));
    std::cout<<std::endl;
    return 0;
}