1 运算符
“表达式”属性支持以下正则表达式运算符:
2 数量限定符
限定符将可选数量的数据添加到正则表达式。限定符表达式应用于紧挨着它前面的字符、组或字符类。.NET Framework 正则表达式支持最小匹配 (lazy) 限定符。
下表描述了影响匹配的元字符。数量 n 和 m 是整数常数。
3 字符转义
下表中列出的字符转义在正则表达式和替换模式中都会被识别。
|
转义字符 \b 是一个特例。在正则表达式中,\b 表示单词边界(在 \w 和 \W 之间),不过,在 [] 字符类中,\b 表示退格符。在替换模式中,\b 始终表示退格符。 |
4 原子零宽度断言
下表中描述的元字符不会使引擎在字符串中前进或使用字符。它们只是根据字符串中的当前位置使匹配成功或失败。例如,^ 指定当前位置在行或字符串的开头。因此,正则表达式 ^FTP 只会返回那些在行的开头出现的字符串“FTP”的匹配项。
5 字符类
字符类表示一组可以匹配输入字符串的字符。组合原义字符、转义符和字符类以构成正则表达式模式。
字符类将定义字符集。一些字符类等同于一个或多个 Unicode 通用类别值或 Unicode 块。Unicode 通用类别定义了字符的主要分类,即字符的类型是否为字母、十进制数字、分隔符、数学符号、标点符号,等等。例如,Lu 通用类别表示“字母,小写”,Sm 类别表示“符号,数学”。有关更多信息,请参见支持的 Unicode 通用类别。
Unicode 块是 Unicode 码位的命名范围。.NET Framework 提供一组从 Unicode 块名称派生的命名块。例如,.NET Framework 提供 IsBasicLatin 命名块,其对应于 Basic Latin Unicode 块并且包含 U+0000 至 U+007F 范围内的字符。有关更多信息,请参见支持的命名块。
.NET Framework 支持字符类减法表达式,通过该表达式可以定义一组字符作为从一个字符类中排除另一字符类的结果。有关更多信息,请参见字符类。
字符类语法
下表总结了字符类及其语法。
支持的 Unicode 通用类别
Unicode 定义了下表列出的通用类别和说明。有关更多信息,请参见 Unicode Character Database(Unicode 字符数据库)处的“UCD File Format”(UCD 文件格式)和“General Category Values”(通用类别值)次主题。
.NET Framework 提供其他类别,用于表示一组 Unicode 字符类别,如下表所示。
类别 | 表示 |
C | (所有控制字符)Cc、Cf、Cs、Co 和 Cn。 |
L | (所有字母)Lu、Ll、Lt、Lm 和 Lo。 |
M | (所有附加符号标记)Mn、Mc 和 Me。 |
N | (所有数字)Nd、Nl 和 No。 |
P | (所有标点)Pc、Pd、Ps、Pe、Pi、Pf 和 Po。 |
S | (所有符号)Sm、Sc、Sk 和 So。 |
Z | (所有分隔符)Zs、Zl 和 Zp。 |
支持的命名块
.NET Framework 提供下表列出的命名块。该组支持的命名块基于 Unicode 4.0 和 Perl 5.6。
字符类减法
一个字符类定义一组字符。字符类减法将产生一组字符,该组字符是从一个字符类中排除另一字符类中字符的结果。
字符类减法表达式具有以下形式:
[ 基本分组 -[ 排除分组 ]]
方括号 ([]) 和连字符 (-) 是强制的。base_group 是字符类语法表中所述的正字符分组或负字符分组。excluded_group 部分是另一个正字符分组或负字符分组,或者是另一个字符类减法表达式(即可以嵌套字符类减法表达式)。
例如,假设您有一个由从“a”至“z”范围内的字符组成的基本分组。若要定义除字符“m”之外的基本分组所组成的字符集,使用 [a-z-[m]]。若要定义除字符集“d”、“j”和“p”之外的基本分组所组成的字符集,使用 [a-z-[djp]]。若要定义除从“m”至“p”字符范围之外的基本分组所组成的字符集,使用 [a-z-[m-p]].
可考虑使用嵌套字符类减法表达式,[a-z-[d-w-[m-o]]]。该表达式由最里面的字符范围向外计算。首先,在从“d”至“w”的字符范围中减去从“m”至“o”的字符范围,产生从“d”至“l”和从“p”至“w”的字符集。然后在从“a”至“z”的字符范围中减去该集合,产生字符集 [abcmnoxyz]。
可以对任何字符类使用字符类减法。若要定义字符集,该字符集包括除空白字符 (\s)、标点通用类别中的字符 (\p{P})、IsGreek 命名块中的字符 (\p{IsGreek}) 以及 Unicode NEXT LINE 控制字符 (\x85) 之外的所有从 \u0000 至 \uFFFF 的 Unicode 字符,使用 [\u0000-\uFFFF-[\s\p{P}\p{IsGreek}\x85]]。
为字符类减法表达式选择将会产生有用结果的字符类。避免使用产生空字符集的表达式,这将无法匹配任何内容,同时避免使用等同于初始基本分组的表达式。例如,表达式 [\p{IsBasicLatin}-[\x00-\x7F]] 从 IsBasicLatin 通用类别中减去所有字符,其结果为空集合。类似地,表达式 [a-z-[0-9]] 的结果为初始基本分组。 这是因为基本分组是从“a”至“z”的字母组成的字符范围,排除分组为从“0”至“9”的十进制数组成的字符范围,基本分组不包含排除分组中的任何字符。
请注意,XML 架构正则表达式对字符类减法具有类似的支持。
6 正则表达式选项
可以使用影响匹配行为的选项修改正则表达式模式。可以通过下列两种基本方法之一设置正则表达式选项:可以在 Regex (pattern, options) 构造函数中的 options 参数中指定,其中 options 是 RegexOptions 枚举值的按位“或”组合;也可以使用内联 (?imnsx-imnsx:) 分组构造或 (?imnsx-imnsx) 其他构造在正则表达式模式内设置它们。
在内联选项构造中,一个选项或一组选项前面的减号 (-) 用于关闭这些选项。例如,内联构造 (?ix-ms) 将打开 IgnoreCase 和 IgnorePatternWhiteSpace 选项而关闭 Multiline 和 Singleline 选项。默认情况下,关闭所有正则表达式选项。
下表列出了 RegexOptions 枚举的成员以及等效的内联选项字符。请注意,选项 RightToLeft 和 Compiled 只适用于表达式整体而不允许内联。(它们只能在 Regex 构造函数的 options 参数中指定。) 选项 None 和 ECMAScript 不允许内联。
7 替换
只在替换模式中允许替换。对于正则表达式中的类似功能,使用后向引用(如 \1)。有关后向引用的详细信息,请参见 反向引用 和后向引用构造。
字符转义和替换是在替换模式中识别的唯一的特殊构造。下面几部分描述的所有语法构造只允许出现在正则表达式中;替换模式中不识别它们。例如,替换模式 a*${txt}b 会插入字符串“a*”,该字符串后跟按 txt 捕获组匹配的子字符串,该子字符串后跟字符串“b”(如果有)。在替换模式中,* 字符不会识别为元字符。与此类似,在正则表达式匹配模式中不识别 $ 模式。在正则表达式中,$ 指定字符串的结尾。
下表显示如何定义命名并编号的替换模式。
字符 | 说明 |
$ 数字 | 替换按组号 number(十进制)匹配的最后一个子字符串。 |
${ name } | 替换由 (?<name> ) 组匹配的最后一个子字符串。 |
$$ | 替换单个“$”字符。 |
$& | 替换完全匹配本身的一个副本。 |
$` | 替换匹配前的输入字符串的所有文本。 |
$' | 替换匹配后的输入字符串的所有文本。 |
$+ | 替换最后捕获的组。 |
$_ | 替换整个输入字符串。 |
下表列出了用于修改正则表达式以允许进行二者之一/或匹配的特殊字符。
8 分组构造
分组构造描述了正则表达式的子表达式,通常用于捕获输入字符串的子字符串。下表描述了正则表达式分组构造。
分组构造 | 说明 |
( 子表达式 ) | 捕获匹配的子表达式(或非捕获组;有关更多信息,请参见正则表达式选项中的 ExplicitCapture 选项)。使用 () 的捕获基于左括号按顺序从 1 开始自动编号。捕获元素编号为零的第一个捕获是由整个正则表达式模式匹配的文本。 |
(?< name > 子表达式) | 将匹配的子表达式捕获到一个组名称或编号名称中。用于 name 的字符串不得包含任何标点符号,并且不能以数字开头。可以使用单引号替代尖括号,例如 (?'name')。 |
(?< name1 - name2 > 子表达式) | (平衡组定义。) 删除先前定义的 name2 组的定义,并在 name1 组中存储先前定义的 name2 组和当前组之间的间隔。如果未定义 name2 组,则匹配将回溯。由于删除 name2 的最后一个定义会显示 name2 的先前定义,因此该构造允许将 name2 组的捕获堆栈用作计数器,用于跟踪嵌套构造(如括号)。在此构造中,name1 是可选的。可以使用单引号替代尖括号,例如 (?'name1-name2')。有关更多信息,请参见本主题中的示例。 |
(?: 子表达式) | (非捕获组。) 不捕获由子表达式匹配的子字符串。 |
(?imnsx-imnsx: 子表达式) | 应用或禁用子表达式中指定的选项。例如,(?i-s: ) 将打开不区分大小写并禁用单行模式。有关更多信息,请参见正则表达式选项。 |
(?= 子表达式) | (零宽度正预测先行断言。) 仅当子表达式在此位置的右侧匹配时才继续匹配。例如,\w+(?=\d) 与后跟数字的单词匹配,而不与该数字匹配。此构造不会回溯。 |
(?! 子表达式) | (零宽度负预测先行断言。) 仅当子表达式不在此位置的右侧匹配时才继续匹配。例如,\b(?!un)\w+\b 与不以 un 开头的单词匹配。 |
(?<= 子表达式) | (零宽度正回顾后发断言。) 仅当子表达式在此位置的左侧匹配时才继续匹配。例如,(?<=19)99 与跟在 19 后面的 99 的实例匹配。此构造不会回溯。 |
(?<! 子表达式) | (零宽度负回顾后发断言。) 仅当子表达式不在此位置的左侧匹配时才继续匹配。 |
(?> 子表达式) | (非回溯子表达式(也称为“贪婪”子表达式)。) 该子表达式仅完全匹配一次,然后就不会逐段参与回溯了。(也就是说,该子表达式仅与可由该子表达式单独匹配的字符串匹配。)默认情况下,如果匹配未成功,回溯会搜索其他可能的匹配。如果已知无法成功回溯,可以使用非回溯子表达式避免不必要的搜索,从而提高性能。 |
命名捕获基于左括号按从左到右的顺序依次编号(与非命名捕获类似),但在对所有非命名捕获进行计数之后才开始对命名捕获编号。例如,模式 ((?<One>abc)\d+)?(?<Two>xyz)(.*) 按编号和名称产生下列捕获组。(编号为 0 的第一个捕获总是指整个模式)。
编号 | 名称 | 模式 |
0 | 0(默认名称) | ((?<One>abc)\d+)?(?<Two>xyz)(.*) |
1 | 1(默认名称) | ((?<One>abc)\d+) |
2 | 2(默认名称) | (.*) |
3 | 1 | (?<One>abc) |
4 | 2 | (?<Two>xyz) |
9 .NET Framework 正则表达式引擎概述
.NET Framework 正则表达式引擎是回溯的正则表达式匹配器,它并入了传统的非确定性有限自动机 (NFA) 引擎(例如 Perl、Python、Emacs 和 Tcl 使用的引擎)。这使其有别于更快的、但功能更有限的纯正则表达式确定性有限自动机 (DFA) 引擎,例如在 awk、egrep 或 lex 中提供的那些引擎。这也使其有别于标准化的、但较慢的 POSIX NFA。
三种正则表达式引擎类型
本节概述了三种引擎类型的优缺点,并解释了 .NET Framework 引擎为什么实现传统的 NFA 匹配器。
DFA 引擎在线性时状态下执行,因为它们不要求回溯(并因此它们永远不测试相同的字符两次)。DFA 引擎还可以确保匹配最长的可能的字符串。但是,因为 DFA 引擎只包含有限的状态,所以它不能匹配具有反向引用的模式;并且因为它不构造显示扩展,所以它不可以捕获子表达式。
传统的 NFA 引擎运行所谓的“贪婪的”匹配回溯算法,以指定顺序测试正则表达式的所有可能的扩展并接受第一个匹配项。因为传统的 NFA 构造正则表达式的特定扩展以获得成功的匹配,所以它可以捕获子表达式匹配和匹配的反向引用。但是,因为传统的 NFA 回溯,所以它可以访问完全相同的状态多次(如果通过不同的路径到达该状态)。因此,在最坏情况下,它的执行速度可能非常慢。因为传统的 NFA 接受它找到的第一个匹配,所以它还可能会导致其他(可能更长)匹配未被发现。
POSIX NFA 引擎与传统的 NFA 引擎类似,不同的一点在于:在它们可以确保已找到了可能的最长的匹配之前,它们将继续回溯。因此,POSIX NFA 引擎的速度慢于传统的 NFA 引擎;并且在使用 POSIX NFA 时,您恐怕不会愿意在更改回溯搜索的顺序的情况下来支持较短的匹配搜索,而非较长的匹配搜索。
程序员更为喜欢传统的 NFA 引擎的原因在于,NFA 引擎与 DFA 或 POSIX NFA 引擎相比更易于表达。尽管在最坏情况下 NFA 引擎的运行速度稍慢,但您可以通过使用降低多义性和限制回溯的模式,控制这些引擎以在线性时或多项式时状态下查找匹配。
.NET Framework 引擎功能
在充分利用传统 NFA 引擎优点的基础上,.NET Framework 正则表达式引擎包括了一组完整的构造,让程序员能够操纵回溯引擎。这些构造可被用于更快地找到匹配,或支持特定扩展,而非其他扩展。
其他功能包括:
· “惰性”限定符:??、*?、+?、{n,m}?。这些惰性限定符指示回溯引擎首先搜索最少数目的重复。与之相反,普通的“贪婪的”限定符首先尝试匹配最大数目的重复。
· 积极的预测先行。这允许回溯引擎在匹配子表达式后返回到文本中相同的作用点。这对于通过验证起始于相同位置的多个模式来搜索整个文本是很有用的。
· 消极的预测先行。这增加了只在子表达式匹配失败的情况下才匹配表达式的能力。这对于删改一个搜索特别有用,因为与必须被包括在内的情况的表达式相比,应被排除的情况的表达式通常要简单得多。(例如,编写搜索不以“non”起始的单词的表达式就很困难)。
· 条件计算。这允许引擎可以根据以前的子表达式匹配的结果,使用多个替换模式进行搜索。这提供了超越反向引用所允许的、更为强大的功能,例如,当以前在子表达式中捕获了左括号时匹配右括号。
· 非回溯子表达式(也称作“贪婪”子表达式)。这允许回溯引擎确保子表达式只匹配为该子表达式找到的第一个匹配项,就好像该表达式独立于其包含的表达式运行。如果没有此构造,来自更大的表达式的回溯搜索可能会更改子表达式的行为。
· 从右到左匹配。这在从右到左而非从左到右搜索的情况下十分有用,或者在从模式的右侧部分开始搜索比从模式的左侧部分开始搜索更为有效的情况下十分有用。
· 积极的和消极的追溯。类似于预测先行。因为正则表达式引擎允许完全的从右到左匹配,所以正则表达式允许无限制的追溯。
10 VS开发环境查找替换的正则表达式
正则表达式是查找和替换文本模式的一种简洁而灵活的表示法。在“查找和替换”窗口中执行“快速查找”、“在文件中查找”、“快速替换”或“在文件中替换”操作时,可以在该窗口的“查找内容”和“替换为”字段中使用一组专用的正则表达式。
若要启用正则表达式,请在“查找和替换”窗口中展开“查找选项”,选择“使用”,然后选择“正则表达式”。“查找内容”和“替换为”字段旁的三角形“表达式生成器”按钮将变为可用。单击此按钮可以列表显示最常用的正则表达式。当单击列表上的某个正则表达式时,它将插入“查找内容”或“替换为”字段中的光标所在位置。单击“表达式生成器”底部的“完整字符列表”时,会显示帮助主题。主题内容涵盖 Visual Studio“查找和替换”功能可以识别的所有正则表达式。您可以复制主题中的正则表达式,然后将其粘贴到“查找内容”或“替换为”字段中。
用于“查找和替换”的正则表达式
“表达式生成器”中经常使用的正则表达式如下所示。
“查找”和“替换”操作中所有有效正则表达式的列表,比“表达式生成器”中可显示的列表长。尽管“表达式生成器”中没有显示下面的正则表达式,但您可以在“查找内容”或“替换为”字段中使用它们。
表达式 | 语法 | 说明 | 示例 |
最少、零个或更多个 | @ | 匹配前面表达式的 0 个或更多搜索项,并匹配尽可能少的字符。 | e.@e 匹配“enterprise”中的“ente”和“erprise”,但不匹配完整的单词“enterprise”。 |
最少、一个或更多个 | # | 匹配前面表达式的一个或更多搜索项,并匹配尽可能少的字符。 | ac# 匹配包含字母“a”和至少一个字母“c”的单词,如“ace”。a.#s 匹配单词“access”中的“acces”。 |
重复 n 次 | ^n | 匹配前面表达式的 n 次出现。 | [0-9]^4 匹配任意 4 位数字的序列。 |
分组 | () | 允许将一组表达式组合在一起。如果要在一次操作中搜索两个不同的表达式,可以使用分组表达式来组合这两个表达式。 | 如果要搜索 - [a-z][1-3] 或 - [1-10][a-z],应按如下方式组合这两个表达式:([a-z][1-3]) | ([1-10][a-z])。 |
第 n 个带标记的文本 | \n | 在“查找”或“替换”表达式中,指示第 n 个带标记的表达式所匹配的文本,其中 n 是从 1 至 9 的数字。在“替换”表达式中,\0 插入整个匹配的文本。 | 如果搜索 a{[0-9]},并替换为 \1,则“a”后跟数字的所有搜索项由跟随的数字替换。例如,“a1”由“1”替换,类似地,“a2”由“2”替换。 |
右对齐字段 | \(w,n) | 在“替换”表达式中,将字段中第 n 个带标记的表达式右对齐至少 w 字符宽。 | 如果搜索 a{[0-9]},并替换为 \(10,1),则“an”的搜索项由整数替换,并通过 10 个空格右对齐。 |
左对齐字段 | \(-w,n) | 在“替换”表达式中,将字段中第 n 个带标记的表达式左对齐至少 w 字符宽。 | 如果搜索 a{[0-9]},并替换为 \(-10,1),则“an”由整数替换,并通过 10 个空格左对齐。 |
禁止匹配 | ~(X) | 当 X 出现在表达式中的此位置时禁止匹配。 | real~(ity) 匹配“realty”和“really”中的“real”,但不匹配“reality”中的“real”。 |
字母数字字符 | :a | 匹配表达式 ([a-zA-Z0-9])。 | 匹配任何字母数字字符,如“a”、“A”、“w”、“W”、“5”等等。 |
字母字符 | :c | 匹配表达式 ([a-zA-Z])。 | 匹配任何字母字符,如“a”、“A”、“w”、“W”等等。 |
十进制数字 | :d | 匹配表达式 ([0-9])。 | 匹配任何数字,如“4”和“6”。 |
十六进制数 | :h | 匹配表达式 ([0-9a-fA-F]+)。 | 匹配任何十六进制数,如“1A”、“ef”和“007”。 |
有理数 | :n | 匹配表达式 (([0-9]+.[0-9]*)|([0-9]*.[0-9]+)|([0-9]+))。 | 匹配任何有理数,如“2007”、“1.0”和“.9”。 |
字母字符串 | :w | 匹配表达式 ([a-zA-Z]+)。 | 匹配任何仅包含字母字符的字符串。 |
转义符 | \e | Unicode U+001B。 | 匹配“转义”控制字符。 |
Bell | \g | Unicode U+0007。 | 匹配“Bell”控制字符。 |
Backspace | \h | Unicode U+0008。 | 匹配“Backspace”控制字符。 |
制表符 | \t | Unicode U+0009。 | 制表符匹配。 |
Unicode 字符 | \x#### 或 \u#### | 匹配 Unicode 值给定的字符,其中 #### 是十六进制数。可以用 ISO 10646 代码点或两个提供代理项对的值的 Unicode 代码点指定基本多语种平面(即一个代理项)外的字符。 | \u0065 匹配字符“e”。 |