正则表达式的3种匹配模式

第一次写文,没有言简意赅,还请各位大人指教!谢谢!


正则表达式是处理字符串的常用工具。在C#中,我们一般使用Regex类来表示一个正则表达式。一般正则表达式引擎支持以下3种匹配模式:单行模式(Singleline)、多行模式(Multiline)与忽略大小写(IgnoreCase)。


1. 单行模式(Singleline)

MSDN定义:更改点 (.) 的含义,使它与每一个字符匹配(而不是与除 \n 之外的每个字符匹配)。

使用单行模式的典型场景是获取网页源码中的信息。

示例:

我们使用WebBrowser控件,从http://www.xxx.com/1.htm上获取了如下HTML源码,它存储在变量str中:

ContractedBlock.gif ExpandedBlockStart.gif HTML
None.gif<html>
None.gif
<body>
None.gif
<div>
None.gifLine 1
None.gifLine 2
None.gif
</div>
None.gif
</body>
None.gif
</html>

我们想把div标签以及其中的内容提取出来,编写代码如下:

ContractedBlock.gif ExpandedBlockStart.gif
None.gifstring pattern = @"<div>.*</div>";
None.gifRegex regex 
= new Regex(pattern);
None.gif
if (regex.IsMatch(str))
None.gif    Console.WriteLine(regex.Match(str).Value);
None.gif
else
None.gif    Console.WriteLine(
"Mismatch!");
None.gif
None.gif
//结果为:Mismatch!

错误分析:

一般认为点符号(.)是匹配任意单个字符的,而(.*)就是匹配任意多个字符。但实际上点符号不能匹配换行符。在Windows中与它等效的表达式为[^\r\n]。

而我们从网站上获取的HTML源码,极少有不换行的。这时候单行模式派上用场了,它可以改变点符号的意义。修改regex实例的构造函数,用RegexOptions.Singleline来声明使用单行模式:

ContractedBlock.gif ExpandedBlockStart.gif
None.gifstring pattern = @"<div>.*</div>";
None.gifRegex regex 
= new Regex(pattern, RegexOptions.Singleline);
None.gif
if (regex.IsMatch(str))
None.gif    Console.WriteLine(regex.Match(str).Value);
None.gif
else
None.gif    Console.WriteLine(
"Mismatch!");
None.gif
ExpandedBlockStart.gifContractedBlock.gif
/**//*
InBlock.gif结果为:
InBlock.gif<div>
InBlock.gifLine 1
InBlock.gifLine 2
InBlock.gif</div>
ExpandedBlockEnd.gif
*/

单行模式的嵌入修饰符:

我们可以直接在正则表达式中嵌入单行模式:

(?s)<div>.*</div>

(?s)修饰符说明,其后面的表达式采用单行模式。所以使用时请不要将它放在末尾。另外可以使用(?-s)关闭单行模式。

注意:嵌入模式的优先级要高于Regex类的RegexOptions设置,所以使用了(?s)后,无论是否使用RegexOptions.Singleline,均按照单行模式解析。


2. 多行模式(Multiline)

MSDN定义:更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。

示例:

有一个文本文件,它的每一行是一个用户名,将文件读入变量str中进行处理。其内容如下:

二十四画生
TerryLee
莫相会
Dflying Chen
Rainy

借用博客园各位前辈的大名:)

我们想找出一个使用英文字母开头的用户名,编写代码如下:

ContractedBlock.gif ExpandedBlockStart.gif
None.gifstring pattern = @"^[A-Za-z]+.*";
None.gifRegex regex 
= new Regex(pattern);
None.gif
if (regex.IsMatch(str))
None.gif    Console.WriteLine(regex.Match(str).Value);
None.gif
else
None.gif    Console.WriteLine(
"Mismatch!");
None.gif
None.gif
//结果为:Mismatch!

错误分析:

(^)是字符串的起始锚定,str的第一个字符是一个中文字,所以匹配不上。我们就可以使用多行模式来改变(^)的含义,使它匹配每一行的起始,而不是整个字符串的起始。

更改代码如下:

ContractedBlock.gif ExpandedBlockStart.gif
None.gifstring pattern = @"^[A-Za-z]+.*";
None.gifRegex regex 
= new Regex(pattern, RegexOptions.Multiline);
None.gif
if (regex.IsMatch(str))
None.gif    Console.WriteLine(regex.Match(str).Value);
None.gif
else
None.gif    Console.WriteLine(
"Mismatch!");
None.gif
None.gif
//结果为:TerryLee


同时,多行模式也会改变($)的含义,使它匹配每一行的结尾,而不是整个字符串的结尾。

与(^)和($)不同的是,(\A)和(\Z)并不受多行模式的影响,永远匹配整个字符串的起始和结尾。

多行模式的嵌入修饰符:(?m)与(?-m)


3. 忽略大小写(IgnoreCase)

MSDN定义:指定不区分大小写的匹配。

这个模式很容易理解,它认为大小写字符是相同的。我们仍以上例来说明。

示例:

ContractedBlock.gif ExpandedBlockStart.gif
None.gifstring pattern = @"^[a-z]+.*";
None.gifRegex regex 
= new Regex(pattern, RegexOptions.Multiline | RegexOptions.IgnoreCase);
None.gif
if (regex.IsMatch(str))
None.gif    Console.WriteLine(regex.Match(str).Value);
None.gif
else
None.gif    Console.WriteLine(
"Mismatch!");
None.gif
None.gif
//结果为:TerryLee


分析:请注意这次使用的正则表达式,我们并没有写入大写字母,但却匹配了以大写字母开头的名字,这就是忽略大小写的效果。

忽略大小写的嵌入修饰符:(?i)与(?-i)


总结:

最后我们用一个表格来总结一下这三个模式

定义影响的表达式RegexOptions枚举嵌入标识符
单行模式更改点 (.) 的含义,使它与每一个字符匹配(而不是与除 \n 之外的每个字符匹配)。.Singleline(?s)
多行模式更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。^$Multiline(?m)
忽略大小写指定不区分大小写的匹配。IgnoreCase(?i)

转载于:https://www.cnblogs.com/Rainy/archive/2006/08/05/468227.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值