正则表达式详解(利用正则表达式去掉C或C++的注释)

正则表达式是用来检索特定字符的一种语法

他加了很多功能,让我们可以做到用规则让系统自动寻找匹配的字符串。

大多数字母和字符只会匹配自己。 例如,正则表达式 test 将完全匹配字符串 test

但是有一些字符是特殊的,我们称作元字符(meta characters),如下:

. ^ $ * + ? { } [ ] \ | ( )

我们首先介绍 [ 和 ]

	他们可以用来指定字符类。也就是说[abc]可以匹配字符a、b或c;这与[a-c]相同。同时在在字符类中的元字符不生效。 例如,[akm$] 将匹配 'a' , 'k' 、 'm' 或 '$' 中的任意字符; '$' 通常是一个元字符,但在一个字符类中它被剥夺了特殊性,包括*,+,等等元字符。但是'\'在[]中还是有用的,比如[a\-z]他就表示匹配"a-z"

.

匹配除了\n和\r的任意字符,如果要匹配需要使用[\s\S]
\s匹配任何不可见字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S匹配任何可见字符。等价于[^ \f\n\r\t\v]。

^

匹配字符串的开头,比如^(ab) 可以匹配‘ab sd sd’中的ab但是不可以匹配'sd ab'中的ab。

用在字符类里可以做否定之用
比如[^a-zA-Z0-9]表示“找到一个非字母也非数字的字符”。

*

对它前面的单个字符匹配到0到任意次,尽量多的匹配字符串。ab*会匹配"a","ab","a...很多个b"

+

对它前面的单个字符匹配1到任意次重复

对它前面的单个字符匹配0到1次

$

匹配字符串尾或者换行符的前一个字符

*?,+?,??

为什么单独拎出来说,因为'*','+',和'?'修饰符都是贪婪的;它们在字符串进行尽可能多的匹配。
如果正则式<.*>希望找到'<a>',但是他会匹配整个'<a>b<c>'(当然也可以匹配'<a>')。在修饰符之后添加 ? 将使样式以非贪婪进行匹配;尽量少的字符将会被匹配。使用正则式 <.*?> 将会仅仅匹配 '<a>'。

这里好像有点说不清楚,因为.*我是理解成很多个.的0-n组合,但是.*? 是尽可能少的一次匹配。他不存在说语法上的可展开,是结果层级上的约束。

{}

{n}n是一个非负的整数,表明必须匹配前面的单个字符n次。
{n,}至少匹配n次
{n,m}n,m都要非负,n≤m。表示最少匹配n次最多匹配m次
这n和m都可以缺省,下界为0,上界为无限次,但不要都缺省。

同时因为是多次匹配,也存在贪婪的问题。{n,m}?可以限制这一问题比如'aaaaaa' a{3,5}?只匹配'aaa'

()

这似乎没什么特别的,就是为了方便指示元字符操作对象是个整体

讲一个例子

^(//.*?\\n\\s*)|(/\\*(.|\\n)*?\\*/\\s*)
  • \number

    匹配数字代表的组合。每个括号是一个组合,组合从1开始编号。比如 (.+) \1 匹配 'the the' 或者 '55 55', 但不会匹配 'thethe' (注意组合后面的空格)。这个特殊序列只能用于匹配前面99个组合。如果 number 的第一个数位是0, 或者 number 是三个八进制数,它将不会被看作是一个组合,而是八进制的数字值。在 '['']' 字符集合内,任何数字转义都被看作是字符。

  • \A

    只匹配字符串开始。

  • \b

    匹配空字符串,但只在单词开始或结尾的位置。一个单词被定义为一个单词字符的序列。注意,通常 \b 定义为 \w\W 字符之间,或者 \w 和字符串开始/结尾的边界, 意思就是 r'\bfoo\b' 匹配 'foo', 'foo.', '(foo)', 'bar foo baz' 但不匹配 'foobar' 或者 'foo3'。默认情况下,Unicode字母和数字是在Unicode样式中使用的,但是可以用 ASCII 标记来更改。如果 LOCALE 标记被设置的话,词的边界是由当前语言区域设置决定的,\b 表示退格字符,以便与Python字符串文本兼容。

  • \B

    匹配空字符串,但 能在词的开头或者结尾。意思就是 r'py\B' 匹配 'python', 'py3', 'py2', 但不匹配 'py', 'py.', 或者 'py!'. \B\b 的取非,所以Unicode样式的词语是由Unicode字母,数字或下划线构成的,虽然可以用 ASCII 标志来改变。如果使用了 LOCALE 标志,则词的边界由当前语言区域设置。

  • \d

    对于 Unicode (str) 样式:匹配任何Unicode十进制数(就是在Unicode字符目录[Nd]里的字符)。这包括了 [0-9] ,和很多其他的数字字符。如果设置了 ASCII 标志,就只匹配 [0-9] 。对于8位(bytes)样式:匹配任何十进制数,就是 [0-9]

  • \D

    匹配任何非十进制数字的字符。就是 \d 取非。 如果设置了 ASCII 标志,就相当于 [^0-9]

  • \s

    对于 Unicode (str) 样式:匹配任何Unicode空白字符(包括 [ \t\n\r\f\v] ,还有很多其他字符,比如不同语言排版规则约定的不换行空格)。如果 ASCII 被设置,就只匹配 [ \t\n\r\f\v] 。对于8位(bytes)样式:匹配ASCII中的空白字符,就是 [ \t\n\r\f\v]

  • \S

    匹配任何非空白字符。就是 \s 取非。如果设置了 ASCII 标志,就相当于 [^ \t\n\r\f\v]

  • \w

    对于 Unicode (str) 样式:匹配Unicode词语的字符,包含了可以构成词语的绝大部分字符,也包括数字和下划线。如果设置了 ASCII 标志,就只匹配 [a-zA-Z0-9_] 。对于8位(bytes)样式:匹配ASCII字符中的数字和字母和下划线,就是 [a-zA-Z0-9_] 。如果设置了 LOCALE 标记,就匹配当前语言区域的数字和字母和下划线。

  • \W

    匹配非单词字符的字符。这与 \w 正相反。如果使用了 ASCII 旗标,这就等价于 [^a-zA-Z0-9_]。如果使用了 LOCALE 旗标,则会匹配当前区域中既非字母数字也非下划线的字符。

  • \Z

    只匹配字符串尾。

接下来举例怎么用正则表达式去掉C或C++程序中的注释
如果是用C++来使用正则表达式,需要你的gcc版本足够高,多少我没测试过,如果抛出这个错误

std::regex_error

就更新一下你的编译器。

在这里插入图片描述
这一句话,可以看到开头有个"^"的符号,意味着这个正则表达式要从行首开始匹配,
现在可以开始准备匹配类似这样的结构了

//我是一个注释
int main()

然后后面有( ) | ( ) 这样的结构,就是任选其一进行匹配的意思。

我们先看前面的括号 开头是两个斜杠// 就是直接匹配没啥好说的。
现在就匹配到了
// 这俩

然后".“我们前面说过,是匹配除了\n和\r的其他所有字符,然后后面跟个*,就是匹配任意多次
,后面再跟一个?,就是一旦找到最短长度的符合条件就不再匹配”.*"了
现在就匹配到了
//我是一个注释 这个位置

然后后面对\s和\n的匹配就是把一些空白字符和换行符扫清

比如他可以把

//我是一个注释

int main()

变成

int main()
	string filename = "1.txt";
	string file = readFileIntoString(filename);
	//regex reg1("/\*(.|[\r\n])*?\*/");
	regex linestart("^(//.*?\\n\\s*)|(/\\*(.|\\n)*?\\*/\\s*)");
	regex antblank("\(\\x20\)+?(//.*?\\n\\s*)+");
	regex anttable("(\\x09)+?(//.*?\\n\\s*)+");
	regex end1(";(\\x20)*?(//.*?\\n\\s*)+");
	regex end2("[{](\\x20)*?(//.*?\\n\\s*)+");
	regex end3("[}](\\x20)*?(//.*?\\n\\s*)+");
	regex end4("[(](\\x20)* ? (//.*?\\n\\s*)+");
	regex end5("[)](\\x20)*?(//.*?\\n\\s*)+");
	regex trash("(\\n)|\\r");
	file = regex_replace(file, linestart, "");
	file = regex_replace(file, antblank, "");
	file = regex_replace(file, anttable, "");
	file = regex_replace(file, end1, ";");
	file = regex_replace(file, end2, "{");
	file = regex_replace(file, end3, "}");
	file = regex_replace(file, end4, "(");
	file = regex_replace(file, end5, ")");
	file = regex_replace(file, trash, " ");

可能你会好奇为什么需要这么多的规则,如果规则不尽可能多,就可能会误伤很多的表达式。
因为这段代码是2个月前写的,我不记得有没有解决这样的问题

printf("dsdasds\\dasdwadas")  

会不会把\dasdwadas") 都给滤掉

如果你测试了会,可以来评论区留言,如果你找到了解决方法,也欢迎你把你的博客链接留在评论区,我会一并贴上。

我记得好像可以前向否定筛查,也许你感兴趣可以看看这个方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值