正则表达式通常用来表达一组具有共通特性(pattern)的字符串集合。
regexp(regular expression)的精髓,就是用最少的字符,表达最大的字符集。
regexp非emacs的专利,而是UNIX下的产物。
regexp下的特殊字符:
*** 第一类字符:代表选择所有
. 代表除了newline以外的所有单个字符。甚至是一些特殊字符。
若想表达任意多的任意字符,用".*"表示,.不包含换行符的
*** 第二类字符:postfix character,用来表示重复出现的单字符.
* 表示重复符号前的字符从0到无限多次
例如:ab*->a,ab,abb,abbb,abbb...等
+ 表示重复符号前字符从1到无限多次
例如:ab+->ab,ab,abb,abbb,abbbb...等
? 表示重复符号前的字符0次或1次
例如:ab?->a,ab
*** 第三类:character set用来表示某个特定的字集中的元素
[] 表示某个特定的字集
例如:[a@!dl3]->a,@,!,d,l,3任选其一
[a-g]->a,b,c,d,e,f,g任选其一
[]* 例如:c[ab]d->cad,cbd
c[ab]*d->cd,cad,cbd,caad,caabd,caabbd.....
[]+ 例如:c[ab]+d->cad,cbd,caabd,cabbd.....
[]? 例如:c[ab]?d->cd,cad,cbd
任何特殊字符,出现在[]内,都会被视为一般字符,除了两个,^,-
^ 若出现在集合的第一个位置,表示"非"
例如:[a-zA-z]表示英文字母集合 [^a-zA-z]表示所有非英文字母集合
- 表示有序集合的范围
例如:[a-g]表示[abcdefg],[0-9]表示[0123456789]
*** 第四类:指定字符出现在行首或者行尾
^ 若出现在字符前,表示这个字符在行首出现。
例如:^the表示以The为行首的字符串
$ 若出现在字符后,表示这个字符在行尾出现
例如:out$表示以out为行尾的字符串
\< 单词开头
\> 单词结尾
*** 第五类:\的用法
\ 有两种含义:
使特殊关键字变成普通字符,例如\\代表"\"。
或使普通字符变成特殊字符,例如:
|,(,),d,',`,b,B,<,>,w,W,sc,Sc之前加上了\,变为特殊字符
下面仅讨论几个常用的
\| 表示"或"例如:is\|it-> IS,Is,iS,is,It,it,iT,IT
\( \) 用来表达正则表达式的范围(就是左右括号,用来规范表达式范围)
例如:
ba\(na\)*->ba,bana,banana,bananana.....
*** 正则表达式的替换文本用法
\& 表示搜索文本的整个字符串。
例如 :replace .d \%d 代表在所有满足 "?d" 格式的文本后面再附加一个 d 例如 ad 替换为 add
\num. 表示搜索文本的地 num. 个字符串组
例如: replace \(a[ad]\)-safe \1 将替换 aa-safe 为 ad,ad-safe 为 aa
\# 表示替换次数,第一次替换为 0 ,逐次增加
例如: replace a[ad] \&\# 将替换 aa 为 aa0 , ad 为 ad1
\? 手动输入替换结果 ??????????
二 Regexp中的方法
test
test 返回 Boolean,查找对应的字符串中是否存在模式。
var str = "1a1b1c";
var reg = new RegExp("1.", "");
alert(reg.test(str)); // true
exec
exec 查找并返回当前的匹配结果,并以数组的形式返回。
var str = "1a1b1c";
var reg = new RegExp("1.", "");
var arr = reg.exec(str);
如果不存在模式,则 arr 为 null,否则 arr 总是一个长度为 1 的数组,其值就是当前匹配项。arr 还有三个属性:index 当前匹配项的位置;lastIndex 当前匹配项结束的位置(index + 当前匹配项的长度);input 如上示例中 input 就是 str。
exec 方法受参数 g 的影响。若指定了 g,则下次调用 exec 时,会从上个匹配的 lastIndex 开始查找。
var str = "1a1b1c";
var reg = new RegExp("1.", "");
alert(reg.exec(str)[0]);
alert(reg.exec(str)[0]);
上述两个输出都是 1a。现在再看看指定参数 g:
var str = "1a1b1c";
var reg = new RegExp("1.", "g");
alert(reg.exec(str)[0]);
alert(reg.exec(str)[0]);
上述第一个输出 1a,第二个输出 1b。
match
match 是 String 对象的一个方法。
var str = "1a1b1c";
var reg = new RegExp("1.", "");
alert(str.match(reg));
match 这个方法有点像 exec,但:exec 是 RegExp 对象的方法;math 是 String 对象的方法。二者还有一个不同点,就是对参数 g 的解释。
如果指定了参数 g,那么 match 一次返回所有的结果。
var str = "1a1b1c";
var reg = new RegExp("1.", "g");
alert(str.match(reg));
//alert(str.match(reg)); // 此句同上句的结果是一样的
此结果为一个数组,有三个元素,分别是:1a、1b、1c。
JavaScript中经常用到正则表达式, 而正则表达式中经常用到Match和Test这两个函数,当然还有Exec. 这里以代码实例来区分它们之间的不同吧.
Match Example
var str = "ABCDEFGHIJKLMNOPQRSTUVWX
var regexp = /[A-E]/gi;
var rs = str.match(regexp);
//rs= Array('A', 'B', 'C', 'D', 'E', 'a', 'b', 'c', 'd', 'e');
Test Example
var str = "ABCDEFGHIJKLMNOPQRSTUVWX
var regexp = /[A-E]/gi;
var rs = regexp.test(str);
// rs = true; boolean
Exc Example
var str = "ABCDEFGHIJKLMNOPQRSTUVWX
var regexp = /[A-E]/gi;
var rs;
while ((rs = regexp.exec(str)) != null)
{
}
OUTPUT
---------------------------------
A
B
C
D
E
a
b
c
d
e
Another
var regexp = /ab*/g;
var str = "abbcdefabh";
var rs;
while ((rs = regexp.exec(str)) != null)
{
}
OUTPUT
---------------------------------
abb
ab