|
多少年来,许多的编程语言和工具都包含对正则表达式的支持,.NET基础类库中包含有一个名字空间和一系列可以充分发挥规则表达式威力的类,而且它们也都与未来的Perl 5中的规则表达式兼容。 规则表达式的知识可能是不少编程人员“常学常忘”的知识之一。在这篇文章中,我们将假定你已经掌握了规则表达式的用法,尤其是Perl 5中表达式的用法。.NET的regexp类是Perl 5中表达式的一个超集,因此,从理论上说它将作为一个很好的起点。我们还假设你具有了C#的语法和.NET架构的基本知识。 regexp规则类包含在System.Text.RegularExpressions.dll文件中,在对应用软件进行编译时你必须引用这个文件,例如: csc r:System.Text.RegularExpressions.dll foo.cs 命令将创建foo.exe文件,它就引用了System.Text.RegularExpressions文件。 在名字空间中仅仅包含着6个类和一个定义,它们是: Regex类中还包含一些静态的方法: Escape: 对字符串中的regex中的转义符进行转义; 我们首先从使用Regex、Match类的简单表达式开始学习。 简单字符串的替换非常直观。例如下面的语句: 现在我们来看一个比较复杂的字符串替换的例子: 现在,我们通过一个组结构来理解一个稍微复杂的例子。看下面的例子: 我们首先从考查字符串pat开始,pat中包含有表达式。第一个capture是从第一个圆括号开始的,然后表达式将匹配到一个abra。第二个capture组从第二个圆括号开始,但第一个capture组还没有结束,这意味着第一个组匹配的结果是abracad ,而第二个组的匹配结果仅仅是cad。因此如果通过使用?符号而使cad成为一项可选的匹配,匹配的结果就可能是abra或abracad。然后,第一个组就会结束,通过指定+符号要求表达式进行多次匹配。 一般情况下,使用规则表达式的用户可以分为以下二大类:第一类用户尽量不使用规则表达式,而是使用过程来执行一些需要重复的操作;第二类用户则充分利用规则表达式处理引擎的功能和威力,而尽可能少地使用过程。 我们在编程中经常需要用到的一个功能是对字符串中的一部分进行匹配或其他一些对字符串处理,下面是一个对字符串中的单词进行匹配的例子: string text = "the quick red fox jumped over the lazy brown dog."; 完成上例中的功能的另一条途径是通过一个MatchEvaluator,新的代码如下所示: |
为了能够更好地理解如何在C#环境中使用规则表达式,我写出一些对你来说可能有用的规则表达式,这些表达式在其他的环境中都被使用过,希望能够对你有所帮助。
罗马数字
string p1 = "^m*(d?c{0,3}|c[dm])" + "(l?x{0,3}|x[lc])(v?i{0,3}|i[vx])$";
string t1 = "vii";
Match m1 = Regex.Match(t1, p1);
交换前二个单词
string t2 = "the quick brown fox";
string p2 = @"(/S+)(/s+)(/S+)";
Regex x2 = new Regex(p2);
string r2 = x2.Replace(t2, "$3$2$1", 1);
关健字=值
string t3 = "myval = 3";
string p3 = @"(/w+)/s*=/s*(.*)/s*$";
Match m3 = Regex.Match(t3, p3);
实现每行80个字符
string t4 = "********************"
+ "******************************"
+ "******************************";
string p4 = ".{80,}";
Match m4 = Regex.Match(t4, p4);
月/日/年 小时:分:秒的时间格式
string t5 = "01/01/01 16:10:01";
string p5 = @"(/d+)/(/d+)/(/d+) (/d+):(/d+):(/d+)";
Match m5 = Regex.Match(t5, p5);
改变目录(仅适用于Windows平台)
string t6 = @"C:/Documents and Settings/user1/Desktop/";
string r6 = Regex.Replace(t6,@"//user1//", @"//user2//");
扩展16位转义符
string t7 = "%41"; // capital A
string p7 = "%([0-9A-Fa-f][0-9A-Fa-f])";
string r7 = Regex.Replace(t7, p7, HexConvert);
删除C语言中的注释(有待完善)
string t8 = @"
/*
* 传统风格的注释
*/
";
string p8 = @"
//* # 匹配注释开始的定界符
.*? # 匹配注释
/*/ # 匹配注释结束定界符
";
string r8 = Regex.Replace(t8, p8, "", "xs");
删除字符串中开始和结束处的空格
string t9a = " leading";
string p9a = @"^/s+";
string r9a = Regex.Replace(t9a, p9a, "");
string t9b = "trailing ";
string p9b = @"/s+$";
string r9b = Regex.Replace(t9b, p9b, "");
在字符/后添加字符n,使之成为真正的新行
string t10 = @"/ntest/n";
string r10 = Regex.Replace(t10, @"//n", "/n");
转换IP地址
string t11 = "55.54.53.52";
string p11 = "^" +
@"([01]?/d/d|2[0-4]/d|25[0-5])/." +
@"([01]?/d/d|2[0-4]/d|25[0-5])/." +
@"([01]?/d/d|2[0-4]/d|25[0-5])/." +
@"([01]?/d/d|2[0-4]/d|25[0-5])" +
"$";
Match m11 = Regex.Match(t11, p11);
删除文件名包含的路径
string t12 = @"c:/file.txt";
string p12 = @"^.*//";
string r12 = Regex.Replace(t12, p12, "");
联接多行字符串中的行
string t13 = @"this is
a split line";
string p13 = @"/s*/r?/n/s*";
string r13 = Regex.Replace(t13, p13, " ");
提取字符串中的所有数字
string t14 = @"
test 1
test 2.3
test 47
";
string p14 = @"(/d+/.?/d*|/./d+)";
MatchCollection mc14 = Regex.Matches(t14, p14);
找出所有的大写字母
string t15 = "This IS a Test OF ALL Caps";
string p15 = @"(/b[^/Wa-z0-9_]+/b)";
MatchCollection mc15 = Regex.Matches(t15, p15);
找出小写的单词
string t16 = "This is A Test of lowercase";
string p16 = @"(/b[^/WA-Z0-9_]+/b)";
MatchCollection mc16 = Regex.Matches(t16, p16);
找出第一个字母为大写的单词
string t17 = "This is A Test of Initial Caps";
string p17 = @"(/b[^/Wa-z0-9_][^/WA-Z0-9_]*/b)";
MatchCollection mc17 = Regex.Matches(t17, p17);
找出简单的HTML语言中的链接
string t18 = @"
<html>
<a href=""first.htm"">first tag text</a>
<a href=""next.htm"">next tag text</a>
</html>
";
string p18 = @"<A[^>]*?HREF/s*=/s*[""']?" + @"([^'"" >]+?)[ '""]?>";
MatchCollection mc18 = Regex.Matches(t18, p18, "si");
string t18 = @"
<html>
<a href=""first.htm"">first tag text</a>
<a href=""next.htm"">next tag text</a>
</html>
";
string p18 = @"<A[^>]*?HREF/s*=/s*[""']?" + @"([^'"" >]+?)[ '""]?>";
MatchCollection mc18 = Regex.Matches(t18, p18, "si");