正则表达式是用来检索特定字符的一种语法
他加了很多功能,让我们可以做到用规则让系统自动寻找匹配的字符串。
大多数字母和字符只会匹配自己。 例如,正则表达式 test
将完全匹配字符串 test
。
但是有一些字符是特殊的,我们称作元字符(meta characters),如下:
. ^ $ * + ? { } [ ] \ | ( )
我们首先介绍 [ 和 ] 。
他们可以用来指定字符类。也就是说[abc]可以匹配字符a、b或c;这与[a-c]相同。同时在在字符类中的元字符不生效。 例如,[akm$] 将匹配 'a' , 'k' 、 'm' 或 '$' 中的任意字符; '$' 通常是一个元字符,但在一个字符类中它被剥夺了特殊性,包括*,+,等等元字符。但是'\'在[]中还是有用的,比如[a\-z]他就表示匹配"a-z"
.
匹配除了\n和\r的任意字符,如果要匹配需要使用[\s\S]
\s匹配任何不可见字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S匹配任何可见字符。等价于[^ \f\n\r\t\v]。
^
匹配字符串的开头,比如^(ab) 可以匹配‘ab sd sd’中的ab但是不可以匹配'sd ab'中的ab。
用在字符类里可以做否定之用
比如[^a-zA-Z0-9]表示“找到一个非字母也非数字的字符”。
*
对它前面的单个字符匹配到0到任意次,尽量多的匹配字符串。ab*会匹配"a","ab","a...很多个b"
+
对它前面的单个字符匹配1到任意次重复
?
对它前面的单个字符匹配0到1次
$
匹配字符串尾或者换行符的前一个字符
*?,+?,??
为什么单独拎出来说,因为'*','+',和'?'修饰符都是贪婪的;它们在字符串进行尽可能多的匹配。
如果正则式<.*>希望找到'<a>',但是他会匹配整个'<a>b<c>'(当然也可以匹配'<a>')。在修饰符之后添加 ? 将使样式以非贪婪进行匹配;尽量少的字符将会被匹配。使用正则式 <.*?> 将会仅仅匹配 '<a>'。
这里好像有点说不清楚,因为.*我是理解成很多个.的0-n组合,但是.*? 是尽可能少的一次匹配。他不存在说语法上的可展开,是结果层级上的约束。
{}
{n}n是一个非负的整数,表明必须匹配前面的单个字符n次。
{n,}至少匹配n次
{n,m}n,m都要非负,n≤m。表示最少匹配n次最多匹配m次
这n和m都可以缺省,下界为0,上界为无限次,但不要都缺省。
同时因为是多次匹配,也存在贪婪的问题。{n,m}?可以限制这一问题比如'aaaaaa' a{3,5}?只匹配'aaa'
()
这似乎没什么特别的,就是为了方便指示元字符操作对象是个整体
讲一个例子
^(//.*?\\n\\s*)|(/\\*(.|\\n)*?\\*/\\s*)
-
\number
匹配数字代表的组合。每个括号是一个组合,组合从1开始编号。比如
(.+) \1
匹配'the the'
或者'55 55'
, 但不会匹配'thethe'
(注意组合后面的空格)。这个特殊序列只能用于匹配前面99个组合。如果 number 的第一个数位是0, 或者 number 是三个八进制数,它将不会被看作是一个组合,而是八进制的数字值。在'['
和']'
字符集合内,任何数字转义都被看作是字符。 -
\A
只匹配字符串开始。
-
\b
匹配空字符串,但只在单词开始或结尾的位置。一个单词被定义为一个单词字符的序列。注意,通常
\b
定义为\w
和\W
字符之间,或者\w
和字符串开始/结尾的边界, 意思就是r'\bfoo\b'
匹配'foo'
,'foo.'
,'(foo)'
,'bar foo baz'
但不匹配'foobar'
或者'foo3'
。默认情况下,Unicode字母和数字是在Unicode样式中使用的,但是可以用ASCII
标记来更改。如果LOCALE
标记被设置的话,词的边界是由当前语言区域设置决定的,\b
表示退格字符,以便与Python字符串文本兼容。 -
\B
匹配空字符串,但 不 能在词的开头或者结尾。意思就是
r'py\B'
匹配'python'
,'py3'
,'py2'
, 但不匹配'py'
,'py.'
, 或者'py!'
.\B
是\b
的取非,所以Unicode样式的词语是由Unicode字母,数字或下划线构成的,虽然可以用ASCII
标志来改变。如果使用了LOCALE
标志,则词的边界由当前语言区域设置。 -
\d
对于 Unicode (str) 样式:匹配任何Unicode十进制数(就是在Unicode字符目录[Nd]里的字符)。这包括了
[0-9]
,和很多其他的数字字符。如果设置了ASCII
标志,就只匹配[0-9]
。对于8位(bytes)样式:匹配任何十进制数,就是[0-9]
。 -
\D
匹配任何非十进制数字的字符。就是
\d
取非。 如果设置了ASCII
标志,就相当于[^0-9]
。 -
\s
对于 Unicode (str) 样式:匹配任何Unicode空白字符(包括
[ \t\n\r\f\v]
,还有很多其他字符,比如不同语言排版规则约定的不换行空格)。如果ASCII
被设置,就只匹配[ \t\n\r\f\v]
。对于8位(bytes)样式:匹配ASCII中的空白字符,就是[ \t\n\r\f\v]
。 -
\S
匹配任何非空白字符。就是
\s
取非。如果设置了ASCII
标志,就相当于[^ \t\n\r\f\v]
。 -
\w
对于 Unicode (str) 样式:匹配Unicode词语的字符,包含了可以构成词语的绝大部分字符,也包括数字和下划线。如果设置了
ASCII
标志,就只匹配[a-zA-Z0-9_]
。对于8位(bytes)样式:匹配ASCII字符中的数字和字母和下划线,就是[a-zA-Z0-9_]
。如果设置了LOCALE
标记,就匹配当前语言区域的数字和字母和下划线。 -
\W
匹配非单词字符的字符。这与
\w
正相反。如果使用了ASCII
旗标,这就等价于[^a-zA-Z0-9_]
。如果使用了LOCALE
旗标,则会匹配当前区域中既非字母数字也非下划线的字符。 -
\Z
只匹配字符串尾。
接下来举例怎么用正则表达式去掉C或C++程序中的注释
如果是用C++来使用正则表达式,需要你的gcc版本足够高,多少我没测试过,如果抛出这个错误
std::regex_error
就更新一下你的编译器。
这一句话,可以看到开头有个"^"的符号,意味着这个正则表达式要从行首开始匹配,
现在可以开始准备匹配类似这样的结构了
//我是一个注释
int main()
然后后面有( ) | ( ) 这样的结构,就是任选其一进行匹配的意思。
我们先看前面的括号 开头是两个斜杠// 就是直接匹配没啥好说的。
现在就匹配到了
// 这俩
然后".“我们前面说过,是匹配除了\n和\r的其他所有字符,然后后面跟个*,就是匹配任意多次
,后面再跟一个?,就是一旦找到最短长度的符合条件就不再匹配”.*"了
现在就匹配到了
//我是一个注释 这个位置
然后后面对\s和\n的匹配就是把一些空白字符和换行符扫清
比如他可以把
//我是一个注释
int main()
变成
int main()
string filename = "1.txt";
string file = readFileIntoString(filename);
//regex reg1("/\*(.|[\r\n])*?\*/");
regex linestart("^(//.*?\\n\\s*)|(/\\*(.|\\n)*?\\*/\\s*)");
regex antblank("\(\\x20\)+?(//.*?\\n\\s*)+");
regex anttable("(\\x09)+?(//.*?\\n\\s*)+");
regex end1(";(\\x20)*?(//.*?\\n\\s*)+");
regex end2("[{](\\x20)*?(//.*?\\n\\s*)+");
regex end3("[}](\\x20)*?(//.*?\\n\\s*)+");
regex end4("[(](\\x20)* ? (//.*?\\n\\s*)+");
regex end5("[)](\\x20)*?(//.*?\\n\\s*)+");
regex trash("(\\n)|\\r");
file = regex_replace(file, linestart, "");
file = regex_replace(file, antblank, "");
file = regex_replace(file, anttable, "");
file = regex_replace(file, end1, ";");
file = regex_replace(file, end2, "{");
file = regex_replace(file, end3, "}");
file = regex_replace(file, end4, "(");
file = regex_replace(file, end5, ")");
file = regex_replace(file, trash, " ");
可能你会好奇为什么需要这么多的规则,如果规则不尽可能多,就可能会误伤很多的表达式。
因为这段代码是2个月前写的,我不记得有没有解决这样的问题
printf("dsdasds\\dasdwadas")
会不会把\dasdwadas") 都给滤掉
如果你测试了会,可以来评论区留言,如果你找到了解决方法,也欢迎你把你的博客链接留在评论区,我会一并贴上。
我记得好像可以前向否定筛查,也许你感兴趣可以看看这个方向。