不符合规定!!正则表达式有一个功能十分强大而又十分复杂的对象RegExp,在Javascript1.2 版本以
上提供。
下面我们看看有关正则表达式的介绍:
正则表达式对象用来规范一个规范的表达式(也就是表达式符不符合特定的要求,比如是不是Email
地址格式等),它具有用来检查给出的字符串是否符合规则的属性和方法。
除此之外,你用RegExp构造器建立的个别正则表达式对象的属性,就已经预先定义好了正则表达式
对象的静态属性,你可以随时使用它们。
核心对象:
在Javascript 1.2, NES 3.0以上版本提供。
在Javascript 1.3以后版本增加了toSource方法。
建立方法:
文字格式或RegExp构造器函数。
文字建立格式使用以下格式:
/pattern/flags即/模式/标记
new RegExp("pattern"[, "flags"])即new RegExp("模式"[,"标记"])
pattern(模式)
表示正则表达式的文本
如果指定此项,flags可以是下面值之一:
g: global match(全定匹配)
i: ignore case(忽略大小写)
gi: both global match and ignore case(匹配所有可能的值,也忽略大小写)
表达式建立同样的正则表达式:
/ab+c/i
new RegExp("ab+c", "i")
当使用构造函数的时候,必须使用正常的字符串避开规则(在字符串中加入前导字符/ )是必须的。
例如,下面的两条语句是等价的:
re = new RegExp(" //w+")
re = //w+/
意义:对于字符,通常表示按字面意义,指出接着的字符为特殊字符,/不作解释。
例如:/b/匹配字符'b',通过在b 前面加一个反斜杠/,也就是//b/,则该字符变成特殊字符,表示
匹配一个单词的分界线。
或者:
对于几个字符,通常说明是特殊的,指出紧接着的字符不是特殊的,而应该按字面解释。
例如:*是一个特殊字符,匹配任意个字符(包括0个字符);例如:/a*/意味匹配0个或多个a。
为了匹配字面上的*,在a前面加一个反斜杠;例如:/a/*/匹配'a*'。
意义:表示匹配的字符必须在最前边。
例如:/^A/不匹配"an A,"中的'A',但匹配"An A."中最前面的'A'。
意义:与^类似,匹配最末的字符。
例如:/t$/不匹配"eater"中的't',但匹配"eat"中的't'。
意义:匹配*前面的字符0次或n次。
例如:/bo*/匹配"A ghost booooed"中的'boooo'或"A bird warbled"中的'b',但不匹配"A goat g
runted"中的任何字符。
意义:匹配+号前面的字符1次或n次。等价于{1,}。
例如:/a+/匹配"candy"中的'a'和"caaaaaaandy."中的所有'a'。
意义:匹配?前面的字符0次或1次。
例如:/e?le?/匹配"angel"中的'el'和"angle."中的'le'。
意义:(小数点)匹配除换行符外的所有单个的字符。
例如:/.n/匹配"nay, an apple is on the tree"中的'an'和'on',但不匹配'nay'。
字符(x)
意义:匹配'x'并记录匹配的值。
例如:/(foo)/匹配和记录"foo bar."中的'foo'。匹配子串能被结果数组中的素[1], ..., [n] 返
回,或被RegExp对象的属性$1, ..., $9返回。
意义:匹配'x'或者'y'。
例如:/green|red/匹配"green apple"中的'green'和"red apple."中的'red'。
意义:这里的n是一个正整数。匹配前面的n个字符。
例如:/a{2}/不匹配"candy,"中的'a',但匹配"caandy," 中的所有'a'和"caaandy."中前面的两个
'a'。
意义:这里的n是一个正整数。匹配至少n个前面的字符。
例如:/a{2,}不匹配"candy"中的'a',但匹配"caandy"中的所有'a'和"caaaaaaandy."中的所有'a'
意义:这里的n和m都是正整数。匹配至少n个最多m个前面的字符。
例如:/a{1,3}/不匹配"cndy"中的任何字符,但匹配 "candy,"中的'a',"caandy," 中的前面两个
'a'和"caaaaaaandy"中前面的三个'a',注意:即使"caaaaaaandy" 中有很多个'a',但只匹配前面的三
个'a'即"aaa"。
意义:一字符列表,匹配列出中的任一字符。你可以通过连字符-指出一个字符范围。
例如:[abcd]跟[a-c]一样。它们匹配"brisket"中的'b'和"ache"中的'c'。
意义:一字符补集,也就是说,它匹配除了列出的字符外的所有东西。 你可以使用连字符-指出一
字符范围。
例如:[^abc]和[^a-c]等价,它们最早匹配"brisket"中的'r'和"chop."中的'h'。
意义:匹配一个空格(不要与/b混淆)
意义:匹配一个单词的分界线,比如一个空格(不要与[/b]混淆)
例如://bn/w/匹配"noonday"中的'no',//wy/b/匹配"possibly yesterday."中的'ly'。
意义:匹配一个单词的非分界线
例如://w/Bn/匹配"noonday"中的'on',/y/B/w/匹配"possibly yesterday."中的'ye'。
意义:这里的X是一个控制字符。匹配一个字符串的控制字符。
例如://cM/匹配一个字符串中的control-M。
意义:匹配一个数字,等价于[0-9]。
例如://d/或/[0-9]/匹配"B2 is the suite number."中的'2'。
意义:匹配任何的非数字,等价于[^0-9]。
例如://D/或/[^0-9]/匹配"B2 is the suite number."中的'B'。
意义:匹配一个表单符
意义:匹配一个换行符
意义:匹配一个回车符
意义:匹配一个单个white空格符,包括空格,tab,form feed,换行符,等价于[ /f/n/r/t/v]。
例如://s/w*/匹配"foo bar."中的' bar'。
意义:匹配除white空格符以外的一个单个的字符,等价于[^ /f/n/r/t/v]。
例如://S//w*匹配"foo bar."中的'foo'。
意义:匹配一个制表符
意义:匹配一个顶头制表符
意义:匹配所有的数字和字母以及下划线,等价于[A-Za-z0-9_]。
例如://w/匹配"apple,"中的'a',"$5.28,"中的'5'和"3D."中的'3'。
意义:匹配除数字、字母外及下划线外的其它字符,等价于[^A-Za-z0-9_]。
例如://W/或者/[^$A-Za-z0-9_]/匹配"50%."中的'%'。
意义:这里的n是一个正整数。匹配一个正则表达式的最后一个子串的n的值(计数左圆括号)。
有一个更加完整的例子。
注意:如果左圆括号中的数字比/n指定的数字还小,则/n取下一行的八进制escape作为描述。
意义:这里的/ooctal是一个八进制的escape值,而/xhex是一个十六进制的escape值,允许在一个
正则表达式中嵌入ASCII码。
当表达式被检查的时候,文字符号提供了编辑正则表达式的方法。利用文字符号可以使到正则表达
式保持为常数。例如,如果你在一个循环中使用文字符号来构造一个正则表达式,正则表达式不需进行
反复编译。
正则表达式对象构造器,例如,new RegExp("ab+c"),提供正则表达式的运行时编译。当你知道正
则表达式的模式会变化的时候,应该使用构造函数,或者你不知道正则表达式的模式,而它们是从另外
的源获得的时候,比如由用户输入时。一旦你定义好了正则表达式,该正则表达式可在任何地方使用,
并且可以改变,你可以使用编译方法来编译一个新的正则表达式以便重新使用。
一个分离预先定义的RegExp对象可以在每个窗口中使用;也就是说,每个分离的Javascript线程运
行以获得自己的RegExp对象。因为每个脚本在一个线程中是不可中断的,这就确保了不同的脚本不会覆
盖RegExp对象的值。
预定义的RegExp对象包含的静态属性:input, multiline, lastMatch,lastParen, leftContext,
rightContext, 以及从$1到$9。input和multiline属性能被预设。其它静态属性的值是在执行个别正则
表达式对象的exec和test方法后,且在执行字符串的match和replace方法后设置的。
注意RegExp对象的几个属性既有长名字又有短名字(象Perl)。这些名字都是指向相同的值。Perl是
一种编程语言,而Javascript模仿了它的正则表达式。
取得匹配的子串,如果有的话
参考input
参考multiline
参考lastMatch
参考lastParen
参考leftContext
参考rightContext
指定用来建立对象原型函
决定是否测试正则表达式是否不能匹配所有的字符串,或者只是与最先的冲突。
决定试图匹配字符串的时候是否忽略大小写
当正则表达式被匹配的时候,为相反的字符串。
决定下一次匹配从那里开始
最后一个匹配的字符
子串匹配的时候,最后一个parenthesized,如果有的话。
最近一次匹配前的子串。
是否在串的多行中搜索。
允许附加属性到所有的对象
最近一次匹配后的的子串。
模式文本
compile方法
编译一个正则表达式对象
运行正则表达式匹配
测试正则达式匹配
返回一个对象的文字描述指定的对象;你可以使用这个值来建立一个新的对象。不考虑Object.toS
ource方法。
返回一个字符串描述指定的对象,不考虑Object.toString对象。
返回指定对角的原始值。不考虑Object.valueOf方法。
例1、下述示例脚本使用replace方法来转换串中的单词。在替换的文本中,脚本使用全局 RegExp
对象的$1和$2属性的值。注意,在作为第二个参数传递给replace方法的时候,RegExp对象的$属性的名
称。
<script LANGUAGE="Javascript1.2">
re = /(/w+)/s(/w+)/;
str = "John Smith";
newstr=str.replace(re,"$2, $1");
document.write(newstr)
</script>
显示结果:"Smith, John".
使用RegExp.input的值作为它的参数,注意RegExp预置了$属性。
<script LANGUAGE="Javascript1.2">
function getInfo(abc)
{
re = /(/w+)/s(/d+)/;
re.exec(abc.value);
window.alert(RegExp.$1 + ", your age is " + RegExp.$2);
}
</script>
<FORM><INPUT TYPE="TEXT" NAME="NameAge" onChange="getInfo(this);"></FORM>
</HTML>
$1, ..., $9属性
用圆括号括着的匹配子串,如果有的话。
是RegExp的属性
静态,只读
描述:因为input是静态属性,不是个别正则表达式对象的属性。你可以使用RegExp.input 访问该
属性。
圆括号内的匹配字串,你可以使用返回的数组。
先考虑RegExp对象。下面给出例子。当正则表达式中没有包含圆括号的时候,该脚本解释成$n的字面意
义。(这里的n是一个正整数)。
例如:
下例脚本使用replace 方法来交换串中单词的位置。在替换后的文本字串中,脚本使用正则表达式
RegExp对象的$1和$2属性的值。注意:当它们向replace方法传递参数的时候,这里没有考虑 $ 属性的
RegExp对象的名称。
<script LANGUAGE="Javascript1.2">
re = /(/w+)/s(/w+)/;
str = "John Smith";
newstr=str.replace(re,"$2, $1");
document.write(newstr)
</script>
显示的输出结果为:Smith, John。
正则表达式详述(二)
参考multiline $&属性 参考lastMatch $+属性 参考lastParen $`属性
参考leftContext $'属性 参考rightContext compile方法 在脚本运行期间编译正则表达式对象
属于RegExp的方法 在Javascript 1.2, NES 3.0以上版本提供 语法:
regexp.compile(pattern[, flags]) 以数: regexp 正则表达式的名称,可以是变量名或文字串。
pattern 正则表达式的定义文本。 flags 如果指定的话,可以是下面其中的一个: "g": 匹配所有可能的字串
"i": 忽略大小写 "gi": 匹配所有可能的字串及忽略大小写 描述:
使用compile方法来编译一个正则表达式 created with the RegExp constructor function。这样
就强制正则表达式只编译一次,而不是每次遇到正则表达式的时候都编译一次。当你确认正则表达式能
保持不变的时候可使用compile 方法来编译它(在获得它的匹配模式后),这样就可以在脚本中重复多次使用它。
你亦可以使用compile 方法来改变在运行期间改变正则表达式。例如,假如正则表达式发生变化,
你可以使用compile方法来重新编译该对象来提高使用效率。
使用该方法将改变正则表达式的source, global和ignoreCasesource属性的值。 constructor
指出建立对象原型的function。注意这个属性的值由函数本身提供,而不是一个字串包含RegExp的name.Property提供。
在Javascript 1.1, NES 2.0以上版本提供 ECMA版本ECMA-262 描述:参考Object.constructor.
exec方法 在指定的字符串运行匹配搜索。返回一个结果数组。 是RegExp的方法
在Javascript 1.2, NES 3.0以上版本提供 语法: regexp.exec([str])regexp([str])
参数: regexp,正则表达式的名称,可以是一个变量名或文字定义串。
str,要匹配正则表达式的字符串,如果省略,将使用RegExp.input的值。
描述:就如在语法描述中的一样,正则表达工的exec方法能够被直接调用(使用regexp.exec(str))或者间接调用(使用regexp(str))。
假如你只是运行以找出是否匹配,可以使用String搜索方法。
假如匹配成功,exec方法返回一个数组并且更新正则表达式对象属性的值和预先定义的正则表达式对象、RegExp。如果匹配失败,exec方法返回null。
请看下例: <script LANGUAGE="Javascript1.2"> //匹配一个b接着一个或多个d,再接着一个b
//忽略大小写 myRe=/d(b+)(d)/ig; myArray = myRe.exec("cdbBdbsbz");
</script> 下面是该脚本的返回值:对象 属性/Index 描述 例子
myArray
index
基于0的匹配index 1
input
原始字符串 cdbBdbsbz
[0]
最后匹配的字符 dbBd
[1], ...[n]
用圆括号括住的匹配字符串,如果有的话。不限制括号的个数。 [1] = bB
[2] = d
myRe
lastIndex
开始下次匹配操作的index值 5
ignoreCase
指出"i"是否使用以忽略大小写 true
global
指出是否使用"g"标记来进行匹配所有可能的字串 true
source
定义模式的文本字符串 d(b+)(d)
RegExp
lastMatch$&
最后匹配的字符 dbBd
leftContext$/Q
最新匹配前面的子串 c
rightContext$'
最新匹配后面的子串 bsbz
$1, ...$9
圆括号内的匹配子串,如果有的话。圆括号的个数不受限制,但RegExp只能保留最后9个 $1 = bB
$2 = d
lastParen $+
最后一个加上圆括号的匹配子串,如果有的话 d
的时候,新的匹配将从由正则表达式的lastIndex 属性值确定的子串中开始。例如,假定你使用下面的脚本:
<script LANGUAGE="Javascript1.2"> myRe=/ab*/g;str = "abbcdefabh"
myArray = myRe.exec(str);
document.writeln("Found "+myArray[0]+". Next match starts at "+myRe.lastIndex)
mySecondArray = myRe.exec(str);
document.writeln("Found "+mySecondArray[0]+". Next match starts at "+myRe.lastIndex)
</script> 这个脚本显示如下结果: Found abb. Next match starts at 3
Found ab. Next match starts at 9 例子:
在下面的例子中,用户输入一个名字,脚本根据输入执行匹配操作。接着检查数组看是否和其它用户的名字匹配。
本脚本假定已注册的用户的姓已经存进了数组A中,或许从一个数据库中取得。 <HTML>
<script LANGUAGE="Javascript1.2"> A = ["zhao","qian","sun","li","liang"]
function lookup() { firstName = //w+/i(); if (!firstName)
window.alert (RegExp.input + "非法输入"); else { count=0;
for (i=0;i 输入你的姓然后按回车键。
<FORM><INPUT TYPE:"TEXT" NAME="FirstName" onChange="lookup(this);"></FORM>
</HTML> global属性 正则表达式中是否使用了"g"标记。 RegExp属性,只读
在Javascript 1.2, NES 3.0以上版本提供 描述: global是一个个别正则表达式对象的属性
如果使用了"g"标记,global的值为true;否则为 false。"g"标记指定正则表达式测试所有可能的匹配。
你不能直接改变该属性的值,但可以调用compile方法来改变它。 ignoreCase 检查正则表达式是否使用了"i"标记
RegExp属性,只读 在Javascript 1.2, NES 3.0以上版本提供 描述:
ignoreCase是个别正则表达式对象的一个属性。
如果使用了"i"标记,则返回true,否则返回false。"i"标记指示在进行匹配的时候忽略大小写。
你不能直接改变该属性的值,但可以通过调用compile方法来改变它 input 指出正则表达式要测试那个字串。$_是这个属性的另一个名字。
RegExp的属性,静态 在Javascript 1.2, NES 3.0以上版本提供
描述:因为input是静态的,不是某个个别的正则表达式对象的属性。你也可以使用 RegExp.input来表示。
如果没有给正则表达式的exec或test方法提供字符串,并且RegExp.input中有值,则使用它的值来调用该方法。
脚本或浏览器能够预置input属性。如果被预置了值且调用exec或 test方法的时候没有提供字符串
则调用exec或test的时候使用input的值。input可以被浏览器以下面的方式设置:
当text表单域处理句柄被调用的时候,input被设置为该text输入的字串。
当textarea表单域处理句柄被调用的时候,input被设置为textarea域内输入的字串。注意multili
ne亦被设置成true从而能匹配多行文本。 当select表单域处理句柄被调用的时候,input被设置成selected text的值。
当链接对象的处理句柄被调用的时候,input被设置成<A HREF=...>和</A>之间的字符串。
事件理现句柄处理完毕后,input属性的值被清除。 lastIndex 可读/可写的一个整数属性,指出下一次匹配从哪里开始。
RegExp的属性 在Javascript 1.2, NES 3.0以上版本提供
描述:lastIndex 是个别的正则表达式对象的属性。 这个属性只有当正则表达式的"g"标记被使用以进行全串匹配的时候才被设置。实行以下规则:
如果lastIndex大小字符串的长度,regexp.test和regexp.exec失败,且lastIndex被设为0。
如果lastIndex等于字串的长度且正则表达式匹配空字符串,则正则表达式从lastIndex的位置开始匹配。
如果lastIndex等于字符串的长度且正则表达式不匹配空字符串,则正则表达式不匹配input,且lastIndex被置为0。
否则,lastIndex被设置成最近一次匹配的下一点。 例如,按下面的顺序执行脚本: re = /(hi)?/g 匹配空字符串
re("hi") 返回["hi", "hi"],lastIndex置为2
re("hi") 返回[""],一个空数组,它的下标为0的元素就是匹配字符串。在这种情况下,返回空
串是因为lastIndex等于2(且仍然是2),并且"hi"的长度也是2。 lastMatch 最后一次匹配字符串,$&是同样的意思。
RegExp的属性,静态,只读 在Javascript 1.2, NES 3.0以上版本提供
描述:因为lastMatch是静态的,所以它不是个别指定正则表达式的属性。你也可以使用RegExp.lastMatch。 lastParen
最后一次加上括号的匹配字符串,如果有的话。$+是同样的意思。 RegExp属性,静态,只读
在Javascript 1.2, NES 3.0以上版本提供
描述:因为lastParen是静态的,它不是某个个别正则式的属性,你可以使用RegExp.lastParen 表达同样的意思。
leftContext 最近一次匹配前面的子串,$`具有相同的意思。 RegExp的属性,静态,只读
在Javascript 1.2, NES 3.0以上版本提供
描述:因为leftContext是静态的,不是某一个正则表达式的属性,所以可以使用RegExp.leftContext来表达想同的意思。
multiline 反映是否匹配多行文本,$*是相同的意思。 RegExp的属性,静态
在Javascript 1.2, NES 3.0以上版本提供
描述:因为multiline是静态的,而不是某个个别正则表达式的属性,所以能够用RegExp.multiline表达相同的意思。
如果允许匹配多行文本,则multiline为true,如果搜索必须在换行时停止,则为false。
脚本或浏览器能够设置multiline属性。当一个textarea的事件处理句柄被调用的时候,multiline
被置为true。在事件处理句柄处理完毕后,multiline属性值被清除。也就是说,如果你设置了multili
ne为true,则执行任何的事件处理句柄后,multiline被置为false。 prototype
描绘类的原型。你可以根据要求使用prototype来增加类的属性或方法。为了获得prototypes 的资
料,请参阅RegExp的function.prototype.Property属性。 从Javascript 1.1, NES 2.0版本开始提供
ECMA版本ECMA-262 rightContext 最后一次匹配的右边的字符串,$'是同样的效果。
RegExp的属性,静态,只读 从 Javascript 1.2, NES 3.0以上版本开始提供
描述:因为rightContext是静态的,不是某个个别正则表达工的属性,可以使用RegExp.rightContext来达到相同的效果。
source 一个只读属性,包含正则表达式定义的模式,不包侨forward slashes和"g"或"i"标记。 RegExp的属性,只读
从Javascript 1.2, NES 3.0以上版本开始提供
描述:source是个别正则表达式对象的属性,你不能直接改变它的值,但可以通过调用compile 方法来改变它。 test
执行指定字符串的正则表达式匹配搜索,返回true或false。 RegExp的方法
从Javascript 1.2, NES 3.0以上版本开始提供 语法:regexp.test([str])
参数:regexp,正则表达式的名称,可以是变量名或正则表达式定义文字串
str,要匹配的字符串,如果省略,将使用RegExp.input的值为作参数
描述:当你需要知道一个字符串能否匹配某个正则表达工,可以使用test方法(与String.search方
法类似); 为了获得更多的信息(但速度将变慢),可以使用exec方法(与String.match方法类似)。 例子:下面的例子显示test是否成功的提示:
function testinput(re, str){
if (re.test(str)) midstring = " contains ";
else midstring = " does not contain ";
document.write (str + midstring + re.source); } toSource
返回一个字符串象征对象的源码 RegExp的方法 从Javascript 1.3以上版本开始提供 语法:toSource()
参数:没有 描述:toSource方法返回下述的值: 对于内置的RegExp对象,toSource返回下面的字符象征源码不可用:
function Boolean(){ [native code] }
在RegExp场合中, toSource返回象征源码的字符串,通常这个方法是由Javascript内部自动调用而不是不代码中显式调用。
更多请看Object.toSource toString 返回描绘指定对象的字符串。 RegExp的方法
从Javascript 1.1, NES 2.0开始提供 ECMA版本ECMA-262 语法:toString() 参数:无
描述:RegExp对象不考虑Object对象的toString方法;它不继承Object.toString,对于RegExp 对
象,toString方法返回一个代表该对象的字符串。 例如:下面的例子显示象征RegExp对象的字符串
myExp = new RegExp("a+b+c"); alert(myExp.toString())
displays "/a+b+c/" 更多请看:Object.toString valueOf 返回一个RegExp对象的原始值
RegExp的方法 从Javascript 1.1版本开始提供 ECMA版本:ECMA-262 语法:valueOf()
参数:无 描述:RegExp的valueOf方法以字符串形式返回RegExp对象的原始值,这个值与RegExp.toString相等。
该方法通常由Javascript内部自动调用而不是显式调用 例子: myExp = new RegExp("a+b+c");
alert(myExp.valueOf()) displays "/a+b+c/"
列目录时, dir *.txt或ls *.txt中的*.txt就 不是一个正则表达式,因为这里*与正则式的*的含义是不同的。
为便于理解和记忆,先从一些概念入手,所有特殊字符或字符组合有一个总表在后面,最后一些例子供理解相应的概念。
正则表达式
是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
可以通过在一对分隔符之间放入表达式模式的各种组件来构造一个正则表达式,即/expression/
普通字符
由所有那些未显式指定为元字符的打印和非打印字符组成。这包括所有的大写和小写字母字符,所有数字,所有标点符号以及一些符号。
非打印字符
字符 | 含义 |
/cx | 匹配由x指明的控制字符。例如, /cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。 |
/f | 匹配一个换页符。等价于 /x0c 和 /cL。 |
/n | 匹配一个换行符。等价于 /x0a 和 /cJ。 |
/r | 匹配一个回车符。等价于 /x0d 和 /cM。 |
/s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ /f/n/r/t/v]。 |
/S | 匹配任何非空白字符。等价于 [^ /f/n/r/t/v]。 |
/t | 匹配一个制表符。等价于 /x09 和 /cI。 |
/v | 匹配一个垂直制表符。等价于 /x0b 和 /cK。 |
特殊字符
所谓特殊字符,就是一些有特殊含义的字符,如上面说的"*.txt"中的*,简单的说就是表示任何字符串的意思。如果要查找文件名中有*的文件,则需要对*进行转义,即在其前加一个/。ls /*.txt。正则表达式有以下特殊字符。
特别字符 | 说明 |
$ | 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '/n' 或 '/r'。要匹配 $ 字符本身,请使用 /$。 |
( ) | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 /( 和 /)。 |
* | 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 /*。 |
+ | 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 /+。 |
. | 匹配除换行符 /n之外的任何单字符。要匹配 .,请使用 /。 |
[ | 标记一个中括号表达式的开始。要匹配 [,请使用 /[。 |
? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 /?。 |
/ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'/n' 匹配换行符。序列 '//' 匹配 "/",而 '/(' 则匹配 "("。 |
^ | 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 /^。 |
{ | 标记限定符表达式的开始。要匹配 {,请使用 /{。 |
| | 指明两项之间的一个选择。要匹配 |,请使用 /|。 |
构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与操作符将小的表达式结合在一起来创建更大的表达式。正则表达式的组件可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。
限定符
限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。
*、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
正则表达式的限定符有:
字符 | 描述 |
* | 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。 |
+ | 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。 |
? | 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。 |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 |
{n,} | n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 |
定位符
用来描述字符串或单词的边界,^和$分别指字符串的开始与结束,/b描述单词的前或后边界,/B表示非单词边界。不能对定位符使用限定符。
选择
用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,是相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。
其中?:是非捕获元之一,还有两个非捕获元是?=和?!,这两个还有更多的含义,前者为正向预查,在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串,后者为负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。
后向引用
对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中,所捕获的每个子匹配都按照在正则表达式模式中从左至右所遇到的内容存储。存储子匹配的缓冲区编号从 1 开始,连续编号直至最大 99 个子表达式。每个缓冲区都可以使用 '/n' 访问,其中 n 为一个标识特定缓冲区的一位或两位十进制数。
可以使用非捕获元字符 '?:', '?=', or '?!' 来忽略对相关匹配的保存。
各种操作符的运算优先级
相同优先级的从左到右进行运算,不同优先级的运算先高后低。各种操作符的优先级从高到低如下:
操作符 | 描述 |
/ | 转义符 |
(), (?:), (?=), [] | 圆括号和方括号 |
*, +, ?, {n}, {n,}, {n,m} | 限定符 |
^, $, /anymetacharacter | 位置和顺序 |
| | “或”操作 |
全部符号解释
字符 | 描述 |
/ | 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'/n' 匹配一个换行符。序列 '//' 匹配 "/" 而 "/(" 则匹配 "("。 |
^ | 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 '/n' 或 '/r' 之后的位置。 |
$ | 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性,$ 也匹配 '/n' 或 '/r' 之前的位置。 |
* | 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。 |
+ | 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。 |
? | 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。 |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 |
{n,} | n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 |
? | 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。 |
. | 匹配除 "/n" 之外的任何单个字符。要匹配包括 '/n' 在内的任何字符,请使用象 '[./n]' 的模式。 |
(pattern) | 匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在VBScript 中使用 SubMatches 集合,在JScript 中则使用 $0…$9 属性。要匹配圆括号字符,请使用 '/(' 或 '/)'。 |
(?:pattern) | 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。 |
(?=pattern) | 正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
(?!pattern) | 负向预查,在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始 |
x|y | 匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。 |
[xyz] | 字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。 |
[^xyz] | 负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。 |
[a-z] | 字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。 |
[^a-z] | 负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。 |
/b | 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er/b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 |
/B | 匹配非单词边界。'er/B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。 |
/cx | 匹配由 x 指明的控制字符。例如, /cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。 |
/d | 匹配一个数字字符。等价于 [0-9]。 |
/D | 匹配一个非数字字符。等价于 [^0-9]。 |
/f | 匹配一个换页符。等价于 /x0c 和 /cL。 |
/n | 匹配一个换行符。等价于 /x0a 和 /cJ。 |
/r | 匹配一个回车符。等价于 /x0d 和 /cM。 |
/s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ /f/n/r/t/v]。 |
/S | 匹配任何非空白字符。等价于 [^ /f/n/r/t/v]。 |
/t | 匹配一个制表符。等价于 /x09 和 /cI。 |
/v | 匹配一个垂直制表符。等价于 /x0b 和 /cK。 |
/w | 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。 |
/W | 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。 |
/xn | 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,'/x41' 匹配 "A"。'/x041' 则等价于 '/x04' & "1"。正则表达式中可以使用 ASCII 编码。. |
/num | 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)/1' 匹配两个连续的相同字符。 |
/n | 标识一个八进制转义值或一个向后引用。如果 /n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。 |
/nm | 标识一个八进制转义值或一个向后引用。如果 /nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 /nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 /nm 将匹配八进制转义值 nm。 |
/nml | 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。 |
/un | 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, /u00A9 匹配版权符号 (?)。 |
部分例子
正则表达式 | 说明 |
//b([a-z]+) /1/b/gi | 一个单词连续出现的位置 |
/(/w+):([^/:]+)(:/d*)?([^# ]*)/ | 将一个URL解析为协议、域、端口及相对路径 |
/^(?:Chapter|Section) [1-9][0-9]{0,1}$/ | 定位章节的位置 |
/[-a-z]/ | A至z共26个字母再加一个-号。 |
/ter/b/ | 可匹配chapter,而不能terminal |
//Bapt/ | 可匹配chapter,而不能aptitude |
/Windows(?=95 |98 |NT )/ | 可匹配Windows95或Windows98或WindowsNT,当找到一个匹配后,从Windows后面开始进行下一次的检索匹配。 |