JavaScript正则表达式从放弃到入门

最新推荐文章于 2024-09-24 20:30:00 发布

邓先雨

最新推荐文章于 2024-09-24 20:30:00 发布

阅读量782

点赞数 2

分类专栏：前端之路文章标签：正则表达式 RegExp javascript 元字符

本文链接：https://blog.csdn.net/Mr_jier/article/details/51405224

版权

前端之路专栏收录该内容

2 篇文章 0 订阅

订阅专栏

写在开篇的话
有的人会问，对于JSer来说，正则表达式重要吗，是不是可以跳过这个似乎特别多变需要记很多规则的知识块。我也这么想过，看了一下子又看不下去，后来遇到了就跳过去，久而久之我发现，出来混迟早是要还的，终于下定决心好好花一个周末入门。然而，看到网上转来转去也就那么几篇的关于RegExp的博客，看的我头有点大，所以，到了拿出自己的互联网精神，自己搞懂后写一篇自认为还算清晰且正确（轻拍）的博客来回馈大家。转载请通知，谢谢。

1. 正则表达式？

正则表达式真的是一个强大的杀器，用来把哪些乱七八糟的字符串里查找、替换、提取工作上，绝对不二之选。入门的人会越来越感叹它的强大，门外的人还在因为它的复杂多变而却步。
在JavaScript中的正则表达式是一个特殊的Object对象——RegExp，一个正则表达式就是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符，难点）组成的文字模式。创建一个正则表达式对象有两种方式，如下第一种方式，以构造函数传参的方式，RegExp构造函数第一个参数为正则表达式的文本模式，而第二个参数则为可选项标志，标志可以组合使用，含义如下：

g（global，全文查找，不会在第一次匹配到而停止）
i （ignore，忽略大小写）
m（multiline，多行查找）

var re = new RegExp();             //初始化对象 
re = new RegExp("a");              //最简单的正则表达式,将匹配字母a  
re = new RegExp("a","i");          //第二个参数,表示匹配时不分大小写
var regExp = new RegExp();
re.compile("abc","gim");           // compile方法设置正则表达式

那忽略第二个参数呢？例如上述代码new RegExp(“a”)则表示非全文查找，非忽略大小写，单行查找咯！当然，正则表达式还有另一种正则表达式字面量的声明方式。

var re = /a/gi;                    //匹配所有的a或A

需要注意的是，由于RegExp 构造函数的模式参数是字符串，所以在某些情况下要对字符进行双重转义。所有元字符都必须双重转义，那些已经转义过的字符也是如此，转义字符\在字符串中通常被转义为\，而在正则表达式字符串中就会变成\\，如下例子：

var regExp1 = /\.at/i;                       //匹配字符.at
var regExp2 = new RegExp("\\\\.at","i");     //匹配字符.at

2. JavaScript中的元字符

对于以前从没接触过正则表达式的Coder们，元字符绝对是一个陌生的知识点，没关系，我们先看看它们各自的释义，然后跟着后面的示例慢慢了解，或者大胆在开发者工具里去尝试。JavaScript中元字符包括：( [ { \ ^ $ | ) ? * + .]}

字符	描述
(pattern)	即普通字符模式，如“food”就会匹配“food”，在JS中使用RegExp的$0…$9属性可访问
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，“n”匹配字符“n”，而“\n”匹配一个换行符,串行“\\”匹配“\”，“\(”则匹配“（”。
^	匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配“\n”或“\r”之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配“\n”或“\r”之前的位置。
*	匹配前面的子表达式零次或多次。例如，zo能匹配“z”以及“zoo”，等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，zo+能匹配“zo”以及“zoo”，但不能匹配“z”，+等价于{1,}。
?	匹配前面的子表达式零次或一次。例如，“do(es)?”可以匹配“does”或“do”，?等价于{0,1}
{n}	n是一个非负整数。匹配确定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个o。
{n,}	n是一个非负整数。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。
{m,n}	m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o+”将匹配所有“o”。
.	匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符，请使用像”(.\|\n)”的模式。
\|	匹配x或y。例如，“z\|food”能匹配“z”或“food”。“(z\|f)ood”则匹配“zood”或“food”。
[xyz]	字符集合。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如，“[^abc]”可以匹配“plain”中的“p”,“l”,“i”,“n”。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。
(?:pattern)	匹配pattern但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用或字符“(\|)”来组合一个模式的各个部分是很有用。例如“industr(?:y\|ies)”就是一个比”industry\|industries”更简略的表达式。
(?=pattern)	正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，“Windows(?=95\|98\|NT\|2000)”能匹配“Windows2000”中的”Windows”，但不能匹配”Windows3.1”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如“Windows(?!95\|98\|NT\|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
(?<=pattern)	JS不支持！反向肯定预查，与正向肯定预查类拟，只是方向相反。例如，“(?<=95\|98\|NT\|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。
(?<!pattern)	JS不支持！反向否定预查，与正向否定预查类拟，只是方向相反。例如“(?<!95\|98\|NT\|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。
\B	匹配非单词边界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。
\cx	匹配由x指明的控制字符。例如，\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的“c”字符。
\d	匹配一个数字字符。等价于[0-9]。
\D	匹配一个非数字字符。等价于[^0-9]。
\f	匹配一个换页符。等价于\x0c和\cL。
\n	匹配一个换行符。等价于\x0a和\cJ。
\r	匹配一个回车符。等价于\x0d和\cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于\x09和\cI。
\v	匹配一个垂直制表符。等价于\x0b和\cK。
\w	匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。
\W	匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\xn	匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。
\num	匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，“(.)\1”匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。
\nm	标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式，则nm为向后引用。如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。
\nml	如果n为八进制数字（0-3），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。
\un	匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配版权符号（©）。

尽管ECMAScript 中的正则表达式功能还是比较完备的，但仍然缺少某些语言（特别是Perl）所支持的高级正则表达式特性。下面列出了ECMAScript 正则表达式不支持的特性。

匹配字符串开始和结尾的\A 和\Z
向后查找（lookbehind）
并集和交集类
原子组（atomic grouping）
Unicode 支持（单个字符除外，如\uFFFF）
命名的捕获组
s（single，单行）和x（free-spacing，无间隔）匹配模式
条件匹配
正则表达式注释

3. RegExp的方法与属性

首先我们要分清楚两点，一个是RegExp的属性，另一个是RegExp实例的属性，这是有很大区别的！什么意思呢，例如，RexExp有input属性，但是上述代码中实例化的regExp1和regExp2是没有的，而regExp1和regExp2有global和ignoreCase属性，但是RexExp对象没有，但是他们都有multiline属性，而实例化的是只读的对于写入无效，RexExp的multiline属性是可读可写的，官方语言说明是表示是否所有表达式都使用多行模式，然而我并没有实验出这个属性对于实例化的multiline的影响（见下文代码的例子）~~~我们可以跳过这个坑，毕竟RegExp的multiline不被IE和Opera支持呢。

1 RegExp的实例的方法：

方法	作用	返回
compile	可用于编译和重新编译正则表达式	无返回值，改变了原正则
test	指出在被查找的字符串中是否存在正则模式	返回true或者false
exec	用正则表达式模式在字符串中运行查找	返回查找结果数组或null

For Example：

/*test方法*/
    var re = /he/;               //最简单的正则表达式,将匹配he这个单词  
    var str = "he";  
    alert(re.test(str));         //true  
    str = "we";  
    alert(re.test(str));         //false  
    str = "HE";  
    alert(re.test(str));         //false  
    re = /he/i;  
    alert(re.test(str));         //true  
    str = "Certainly!He loves her!";  
    alert(re.test(str));         //true,只要包含he(HE)就符合
    re = /^he/i;                 //脱字符(^)代表字符开始位置  
    alert(re.test(str));         //false,因为he不在str最开始  
    str = "He is a good boy!";  
    alert(re.test(str));         //true,He是字符开始位置,还需要使用$  
    re = /^he$/i;                //$表示字符结束位置  
    alert(re.test(str));         //false  
    str = "He";  
    alert(re.test(str));         //true  
    re = /\s/;                   // \s匹配任何空白字符，包括空格、制表符等 
    str= "user Name";            //用户名包含空格  
    alert(re.test(str));         //true  
    str = "user     Name";       //用户名包含制表符  
    alert(re.test(str));         //true  
    re=/^[a-z]/i;                //[]匹配指定范围内的任意字符
    str="variableName";          //变量名必须以字母开头  
    alert(re.test(str));         //true  
    str="123abc";  
    alert(re.test(str));         //false

/*exec方法*/
    var osVersion = "Ubuntu 8";  //其中的8表示系统主版本号  
    var re = /^[a-z]+\s+\d+$/i;  //+号表示字符至少要出现1次,\s表示空白字符,\d表示一个数字  
    alert(re.test(osVersion));   //true,但我们想知道主版本号 
    var arr = re.exec(osVersion);  
    alert(arr[0]);               //Ubuntu 8
    re=/\d+/;  
    var arr = re.exec(osVersion);  
    alert(arr[0]);               //8  
    re.exec("Ubuntu8");          //无空格，所以返回null

2 RegExp的实例的属性：

属性(短属性名)	作用	R/W
global	返回是否设置了 g 标志的布尔值	可读写入无效
ignoreCase	返回是否设置了 i 标志的布尔值	可读写入无效
multiline	返回是否设置了 i 标志的布尔值	可读写入无效
source	返回正则表达式模式的文本的复本	可读写入无效
lastIndex	返回字符位置，被查找字符串中下一次匹配的开始位置	可读写入无效

For Example：

/*看下面的例子，了解global标志、exec()和lastIndex的三角恋关系吧（笑）*/
var reg = /[a-z]/igm;
reg.multiline;                   //true
reg.multiline = false;           //尝试写入
multiline;                       //true，写入无效
reg.toString();                  //"/[a-z]/gim"
reg.source();                    //"/[a-z]"，不带flags
re = /\b[a-z]+\b\s/i;            //+表示1次或多次
str = "one two three four";
re.lastIndex;                    //0
re.exec(str) + re.lastIndex;     //"one 0",因为未设置global标志，所以lastIndex的值不会改变
re.lastIndex = 1;                //尝试写入
re.exec(str) + re.lastIndex;     //"one 1",写入成功，但是对于exec()的执行无影响
re = /\b[a-z]*\b\s/gi;           //带上了global
re.lastIndex                     //0，重置
re.exec(str) + re.lastIndex;     //"one 4"，因为有global标志，所以每次执行匹配都会改变lastIndex的值
re.exec(str) + re.lastIndex;     //"two 8"，
re.exec(str) + re.lastIndex;     //"three 14"
re.exec(str) + re.lastIndex;     //four后面无空格，故不会匹配到，lastIndex重置为0，又开始新的一次循环
re.lastIndex = 1;                //尝试写入
re.exec(str)+ re.lastIndex;      //"two 8"，说明了lastIndex的值会影响exec等匹配函数的执行

3 RegExp的属性：

RegExp 构造函数包含一些属性（这些属性在其他语言中被看成是静态属性）。这些属性适用于作用域中的所有正则表达式，并且基于所执行的最近一次正则表达式操作而变化。关于这些属性的另一个独特之处，就是可以通过两种方式访问它们。换句话说，这些属性分别有一个长属性名和一个短属性名（Opera 是例外，它不支持短属性名）。下表列出了RegExp 构造函数的属性。

属性(短属性名)	短属性名	作用
$1~$9	无	返回九个在模式匹配期间找到的，最近保存的部分
input	$_	返回最近一次要匹配的字符串
lastMatch	$&	返回最近一次的匹配项
lastParen	$+	如果有的话，返回任最近一次匹配的捕获组
leftContext	$`	返回input字符串中lastMatch之前的文本
rightContext	$’	返回Input字符串中lastMatch之后的文本
multiline	$*	返回布尔值，表示是否所有表达式都使用多行模式。IE和Opera未实现此属性

For Example:

var re = /\b[a-z]+\b(\s)/gi;     //注意，我加了括号哟！
var str = "one two three four";
re.exec(str);                    //["one ", " "],执行了正则匹配之后才会影响RegExp的属性
RegExp.$1;                       //" ",空格，说明就是我们数组exec()方法输出array[1];
RegExp.$1;
RegExp.$2;                       //""，空字符串，因为exec()方法输出array仅仅只有两项
RegExp.input;                    //"one two three four"
RegExp["$_"];                    //"one two three four",
RegExp.$_ ;                      //"one two three four"，三种种引用形式均可
RegExp.lastMatch;                //"one "
RegExp["$&"];                    //"one "
RegExp.$&;                       //Error，所以lastMatch的短属性名只有一种形式;
RegExp["$&"];                    //一个奇怪的输出“     at ”，也许你的浏览器不是。报错之后的RegExp已经失控
re.exec(str);                    //["two ", " "],重置RegExp状态
/*事实上，除了&_可以用RegExp以外，其余皆会报错，所以推荐都用["短属性名"]的方式引用*/
RegExp["$&"];                    //"two "
RegExp.leftContext;              //"one "
RegExp["$`"];                    //"one "
RegExp.rightContext;             //"three four"
RegExp["$'"];                    //"three four"
RegExp.lastParen;                //" ",其实是返回exec()方法输出array的最后一项
RegExp["$+"];                    //" "
RegExp.multiline;                //undefined
RegExp.multiline = true;         //设置为true
RegExp.multiline;                //true，说明可以设置
re.multiline;                    //并不会变化  
/*如我上文所说，RegExp.multiline设置似乎并没有任何用处，希望有人评论告知*/