正则表达式的三种模式

最新推荐文章于 2022-03-14 18:48:07 发布

长江某菜鸟

最新推荐文章于 2022-03-14 18:48:07 发布

阅读量3.1k

点赞数 2

分类专栏： javascript 文章标签：正则表达式 JavaScript 正则表达式的三种模式

javascript 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

假定要分析的字符串是xfooxxxxxxfoo

   模式.*foo（贪婪模式）: 模式分为子模式p1(.*)和子模式p2(foo)两个部分.其中p1中的量词匹配方式使用默认方式(贪婪型)。匹配开始时,吃入所有字符xfooxxxxxx（博主注：应该是xfooxxxxxxfoo）去匹配子模式p1。匹配成功,但这样以来就没有了字符串去匹配子模式p2。本轮匹配失败；第二轮：减少p1部分的匹配量，吐出最后一个字符,把字符串分割成xfooxxxxxxfo和o两个子字符串s1和s2。 s1匹配p1,但s2不匹配p2。本轮匹配失败；第三轮，再次减少p1部分匹配量，吐出两个字符,字符串被分割成xfooxxxxxxfo和oo两部分。结果同上。第四轮，再次减少p1匹配量,字符串分割成xfooxxxxxx和foo两个部分, 这次s1/s2分别和p1/p2匹配。停止尝试,返回匹配成功。
   模式.*?foo（勉强模式）: 最小匹配方式。第一次尝试匹配,p1由于是0或任意次，因此被忽略，用字符串去匹配p2,失败；第二次，读入第一个字符x, 尝试和p1匹配, 匹配成功;字符串剩余部分fooxxxxxxfoo中前三个字符和p2也是匹配的. 因此, 停止尝试,返回匹配成功。在这种模式下，如果对剩余字符串继续去寻找和模式相匹配的子字符串，还会找到字符串末尾的另一个xfoo，而在贪婪模式下，由于第一次匹配成功的子串就已经是所有字符，因此不存在第二个匹配子串。
    模式.*+foo（侵占模式）: 也叫占用模式。匹配开始时读入所有字符串, 和p1匹配成功,但没有剩余字符串去和p2匹配。因此, 匹配失败。返回。（博主注：不再进行匹配尝试）

简单地说, 贪婪模式和占有模式相比,贪婪模式会在只有部分匹配成功的条件下, 依次从多到少减少匹配成功部分模式的匹配数量, 将字符留给模式其他部分去匹配;而占用模式则是占有所有能匹配成功部分, 绝不留给其他部分使用。

正则表达式是处理字符串的常用工具。在C#中，我们一般使用Regex类来表示一个正则表达式。一般正则表达式引擎支持以下3种匹配模式：单行模式(Singleline)、多行模式(Multiline)与忽略大小写(IgnoreCase)。

1. 单行模式(Singleline)

MSDN定义：更改点 (.) 的含义，使它与每一个字符匹配（而不是与除 \n 之外的每个字符匹配）。

使用单行模式的典型场景是获取网页源码中的信息。

示例：

我们使用WebBrowser控件，从http://www.xxx.com/1.htm上获取了如下HTML源码，它存储在变量str中：

<html>

<body>

<div>

Line 1

Line 2

</div>

</body>

</html>

我们想把div标签以及其中的内容提取出来，编写代码如下：

string pattern = @"<div>.*</div>";

Regex regex = new Regex(pattern);

if (regex.IsMatch(str))

Console.WriteLine(regex.Match(str).Value);

else

Console.WriteLine("Mismatch!");

//结果为：Mismatch!

错误分析：

一般认为点符号(.)是匹配任意单个字符的，而(.*)就是匹配任意多个字符。但实际上点符号不能匹配换行符。在Windows中与它等效的表达式为[^\r\n]。

而我们从网站上获取的HTML源码，极少有不换行的。这时候单行模式派上用场了，它可以改变点符号的意义。修改regex实例的构造函数，用RegexOptions.Singleline来声明使用单行模式：

string pattern = @"<div>.*</div>";

Regex regex = new Regex(pattern, RegexOptions.Singleline);

if (regex.IsMatch(str))

Console.WriteLine(regex.Match(str).Value);

else

Console.WriteLine("Mismatch!");

结果为：

<div>

Line 1

Line 2

</div>

单行模式的嵌入修饰符：

我们可以直接在正则表达式中嵌入单行模式：

(?s)<div>.*</div>

(?s)修饰符说明，其后面的表达式采用单行模式。所以使用时请不要将它放在末尾。另外可以使用(?-s)关闭单行模式。

注意：嵌入模式的优先级要高于Regex类的RegexOptions设置，所以使用了(?s)后，无论是否使用RegexOptions.Singleline，均按照单行模式解析。

2. 多行模式(Multiline)

MSDN定义：更改 ^ 和 $ 的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配。

示例：

有一个文本文件，它的每一行是一个用户名，将文件读入变量str中进行处理。其内容如下：

二十四画生
TerryLee
莫相会
Dflying Chen
Rainy

借用博客园各位前辈的大名:)

我们想找出一个使用英文字母开头的用户名，编写代码如下：

string pattern = @"^[A-Za-z]+.*";

Regex regex = new Regex(pattern);

if (regex.IsMatch(str))

Console.WriteLine(regex.Match(str).Value);

else

Console.WriteLine("Mismatch!");

//结果为：Mismatch!

错误分析：

(^)是字符串的起始锚定，str的第一个字符是一个中文字，所以匹配不上。我们就可以使用多行模式来改变(^)的含义，使它匹配每一行的起始，而不是整个字符串的起始。

更改代码如下：

string pattern = @"^[A-Za-z]+.*";

Regex regex = new Regex(pattern, RegexOptions.Multiline);

if (regex.IsMatch(str))

Console.WriteLine(regex.Match(str).Value);

else

Console.WriteLine("Mismatch!");

//结果为：TerryLee

同时，多行模式也会改变($)的含义，使它匹配每一行的结尾，而不是整个字符串的结尾。

与(^)和($)不同的是，(\A)和(\Z)并不受多行模式的影响，永远匹配整个字符串的起始和结尾。

多行模式的嵌入修饰符：(?m)与(?-m)

3. 忽略大小写(IgnoreCase)

MSDN定义：指定不区分大小写的匹配。

这个模式很容易理解，它认为大小写字符是相同的。我们仍以上例来说明。

示例：

分析：请注意这次使用的正则表达式，我们并没有写入大写字母，但却匹配了以大写字母开头的名字，这就是忽略大小写的效果。

忽略大小写的嵌入修饰符：(?i)与(?-i)

总结：

最后我们用一个表格来总结一下这三个模式

	定义	影响的表达式	RegexOptions枚举	嵌入标识符
单行模式	更改点 (.) 的含义，使它与每一个字符匹配（而不是与除 \n 之外的每个字符匹配）。	.	Singleline	(?s)
多行模式	更改 ^ 和 $ 的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配。	^$	Multiline	(?m)
忽略大小写	指定不区分大小写的匹配。		IgnoreCase	(?i)