正则表达式详解（利用正则表达式去掉C或C++的注释）

最新推荐文章于 2024-08-18 20:04:25 发布

koala_cola

最新推荐文章于 2024-08-18 20:04:25 发布

阅读量1.9k

点赞数 3

本文链接：https://blog.csdn.net/koala_cola/article/details/106180673

版权

正则表达式是用来检索特定字符的一种语法

他加了很多功能，让我们可以做到用规则让系统自动寻找匹配的字符串。

大多数字母和字符只会匹配自己。例如，正则表达式 test 将完全匹配字符串 test 。

但是有一些字符是特殊的，我们称作元字符（meta characters），如下：

. ^ $ * + ? { } [ ] \ | ( )

我们首先介绍 [ 和 ] 。

	他们可以用来指定字符类。也就是说[abc]可以匹配字符a、b或c；这与[a-c]相同。同时在在字符类中的元字符不生效。 例如，[akm$] 将匹配 'a' ， 'k' 、 'm' 或 '$' 中的任意字符； '$' 通常是一个元字符，但在一个字符类中它被剥夺了特殊性，包括*，+，等等元字符。但是'\'在[]中还是有用的，比如[a\-z]他就表示匹配"a-z"

匹配除了\n和\r的任意字符，如果要匹配需要使用[\s\S]
\s匹配任何不可见字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S匹配任何可见字符。等价于[^ \f\n\r\t\v]。

匹配字符串的开头，比如^（ab） 可以匹配‘ab sd sd’中的ab但是不可以匹配'sd ab'中的ab。

用在字符类里可以做否定之用
比如[^a-zA-Z0-9]表示“找到一个非字母也非数字的字符”。

对它前面的单个字符匹配到0到任意次，尽量多的匹配字符串。ab*会匹配"a","ab","a...很多个b"

对它前面的单个字符匹配1到任意次重复

？

对它前面的单个字符匹配0到1次

匹配字符串尾或者换行符的前一个字符

*？，+？，？？

为什么单独拎出来说，因为'*','+',和'?'修饰符都是贪婪的;它们在字符串进行尽可能多的匹配。
如果正则式<.*>希望找到'<a>',但是他会匹配整个'<a>b<c>'（当然也可以匹配'<a>'）。在修饰符之后添加 ? 将使样式以非贪婪进行匹配；尽量少的字符将会被匹配。使用正则式 <.*?> 将会仅仅匹配 '<a>'。

这里好像有点说不清楚，因为.*我是理解成很多个.的0-n组合，但是.*? 是尽可能少的一次匹配。他不存在说语法上的可展开，是结果层级上的约束。

｛｝

｛n｝n是一个非负的整数，表明必须匹配前面的单个字符n次。
｛n，｝至少匹配n次
｛n,m｝n,m都要非负，n≤m。表示最少匹配n次最多匹配m次
这n和m都可以缺省，下界为0，上界为无限次，但不要都缺省。

同时因为是多次匹配，也存在贪婪的问题。{n,m}?可以限制这一问题比如'aaaaaa' a{3,5}？只匹配'aaa'

（）

这似乎没什么特别的，就是为了方便指示元字符操作对象是个整体

讲一个例子

^(//.*?\\n\\s*)|(/\\*(.|\\n)*?\\*/\\s*)

\number

匹配数字代表的组合。每个括号是一个组合，组合从1开始编号。比如 (.+) \1 匹配 'the the' 或者 '55 55', 但不会匹配 'thethe' (注意组合后面的空格)。这个特殊序列只能用于匹配前面99个组合。如果 number 的第一个数位是0，或者 number 是三个八进制数，它将不会被看作是一个组合，而是八进制的数字值。在 '[' 和 ']' 字符集合内，任何数字转义都被看作是字符。
\A

只匹配字符串开始。
\b

匹配空字符串，但只在单词开始或结尾的位置。一个单词被定义为一个单词字符的序列。注意，通常 \b 定义为 \w 和 \W 字符之间，或者 \w 和字符串开始/结尾的边界，意思就是 r'\bfoo\b' 匹配 'foo', 'foo.', '(foo)', 'bar foo baz' 但不匹配 'foobar' 或者 'foo3'。默认情况下，Unicode字母和数字是在Unicode样式中使用的，但是可以用 ASCII 标记来更改。如果 LOCALE 标记被设置的话，词的边界是由当前语言区域设置决定的，\b 表示退格字符，以便与Python字符串文本兼容。
\B

匹配空字符串，但不能在词的开头或者结尾。意思就是 r'py\B' 匹配 'python', 'py3', 'py2', 但不匹配 'py', 'py.', 或者 'py!'. \B 是 \b 的取非，所以Unicode样式的词语是由Unicode字母，数字或下划线构成的，虽然可以用 ASCII 标志来改变。如果使用了 LOCALE 标志，则词的边界由当前语言区域设置。
\d

对于 Unicode (str) 样式：匹配任何Unicode十进制数（就是在Unicode字符目录[Nd]里的字符）。这包括了 [0-9] ，和很多其他的数字字符。如果设置了 ASCII 标志，就只匹配 [0-9] 。对于8位(bytes)样式：匹配任何十进制数，就是 [0-9]。
\D

匹配任何非十进制数字的字符。就是 \d 取非。如果设置了 ASCII 标志，就相当于 [^0-9] 。
\s

对于 Unicode (str) 样式：匹配任何Unicode空白字符（包括 [ \t\n\r\f\v] ，还有很多其他字符，比如不同语言排版规则约定的不换行空格）。如果 ASCII 被设置，就只匹配 [ \t\n\r\f\v] 。对于8位(bytes)样式：匹配ASCII中的空白字符，就是 [ \t\n\r\f\v] 。
\S

匹配任何非空白字符。就是 \s 取非。如果设置了 ASCII 标志，就相当于 [^ \t\n\r\f\v] 。
\w

对于 Unicode (str) 样式：匹配Unicode词语的字符，包含了可以构成词语的绝大部分字符，也包括数字和下划线。如果设置了 ASCII 标志，就只匹配 [a-zA-Z0-9_] 。对于8位(bytes)样式：匹配ASCII字符中的数字和字母和下划线，就是 [a-zA-Z0-9_] 。如果设置了 LOCALE 标记，就匹配当前语言区域的数字和字母和下划线。
\W

匹配非单词字符的字符。这与 \w 正相反。如果使用了 ASCII 旗标，这就等价于 [^a-zA-Z0-9_]。如果使用了 LOCALE 旗标，则会匹配当前区域中既非字母数字也非下划线的字符。
\Z

只匹配字符串尾。

接下来举例怎么用正则表达式去掉C或C++程序中的注释
如果是用C++来使用正则表达式，需要你的gcc版本足够高，多少我没测试过，如果抛出这个错误

std::regex_error

就更新一下你的编译器。

在这里插入图片描述
这一句话，可以看到开头有个"^"的符号，意味着这个正则表达式要从行首开始匹配，
现在可以开始准备匹配类似这样的结构了

//我是一个注释
int main()

然后后面有( ) | ( ) 这样的结构，就是任选其一进行匹配的意思。

我们先看前面的括号开头是两个斜杠// 就是直接匹配没啥好说的。
现在就匹配到了
// 这俩

然后".“我们前面说过，是匹配除了\n和\r的其他所有字符，然后后面跟个*，就是匹配任意多次
，后面再跟一个？，就是一旦找到最短长度的符合条件就不再匹配”.*"了
现在就匹配到了
//我是一个注释 这个位置

然后后面对\s和\n的匹配就是把一些空白字符和换行符扫清

比如他可以把

//我是一个注释

int main（）

变成

int main（）

	string filename = "1.txt";
	string file = readFileIntoString(filename);
	//regex reg1("/\*(.|[\r\n])*?\*/");
	regex linestart("^(//.*?\\n\\s*)|(/\\*(.|\\n)*?\\*/\\s*)");
	regex antblank("\(\\x20\)+?(//.*?\\n\\s*)+");
	regex anttable("(\\x09)+?(//.*?\\n\\s*)+");
	regex end1(";(\\x20)*?(//.*?\\n\\s*)+");
	regex end2("[{](\\x20)*?(//.*?\\n\\s*)+");
	regex end3("[}](\\x20)*?(//.*?\\n\\s*)+");
	regex end4("[(](\\x20)* ? (//.*?\\n\\s*)+");
	regex end5("[)](\\x20)*?(//.*?\\n\\s*)+");
	regex trash("(\\n)|\\r");
	file = regex_replace(file, linestart, "");
	file = regex_replace(file, antblank, "");
	file = regex_replace(file, anttable, "");
	file = regex_replace(file, end1, ";");
	file = regex_replace(file, end2, "{");
	file = regex_replace(file, end3, "}");
	file = regex_replace(file, end4, "(");
	file = regex_replace(file, end5, ")");
	file = regex_replace(file, trash, " ");