笔记之javascript--06--RegExp

最新推荐文章于 2018-12-27 10:55:27 发布

转载最新推荐文章于 2018-12-27 10:55:27 发布 · 204 阅读

javascript 专栏收录该内容

14 篇文章

订阅专栏

本文详细介绍JavaScript中的正则表达式使用方法，包括基本语法、常见应用场景及实例演示。掌握正则表达式能够帮助开发者高效处理字符串匹配和提取任务。

1、JS正则表达式（RegExp）

字符串是编程时涉及到的最多的一种数据结构，对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址，虽然可以编程提取@前后的子串，再分别判断是否是单词和域名，但这样做不但麻烦，而且代码难以复用。

正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。

所以我们判断一个字符串是否是合法的Email的方法是：

创建一个匹配Email的正则表达式；
用该正则表达式去匹配用户的输入来判断是否合法。

因为正则表达式也是用字符串表示的，所以，我们要首先了解如何用字符来描述字符。

在正则表达式中，如果直接给出字符，就是精确匹配。用\d可以匹配一个数字，\w可以匹配一个字母或数字，所以：

.可以匹配任意字符，所以：

要匹配变长的字符，在正则表达式中，用*表示任意个字符（包括0个），用+表示至少一个字符，用?表示0个或1个字符，用{n}表示n个字符，用{n,m}表示n-m个字符：

来看一个复杂的例子：\d{3}\s+\d{3,8}。

我们来从左到右解读一下：

\d{3}表示匹配3个数字，例如'010'；
\s可以匹配一个空格（也包括Tab等空白符），所以\s+表示至少有一个空格，例如匹配' '，'\t\t'等；
\d{3,8}表示3-8个数字，例如'1234567'。

综合起来，上面的正则表达式可以匹配以任意个空格隔开的带区号的电话号码。

如果要匹配'010-12345'这样的号码呢？由于'-'是特殊字符，在正则表达式中，要用'\'转义，所以，上面的正则是\d{3}\-\d{3,8}。

但是，仍然无法匹配'010 - 12345'，因为带有空格。所以我们需要更复杂的匹配方式。

进阶

要做更精确地匹配，可以用[]表示范围，比如：

[0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线；
[0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如'a100'，'0_Z'，'js2015'等等；
[a-zA-Z\_\$][0-9a-zA-Z\_\$]*可以匹配由字母或下划线、开头，后接任意个由一个数字、字母或者下划线、组成的字符串，也就是JavaScript允许的变量名；
[a-zA-Z\_\$][0-9a-zA-Z\_\$]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）。

A|B可以匹配A或B，所以(J|j)ava(S|s)cript可以匹配'JavaScript'、'Javascript'、'javaScript'或者'javascript'。

^表示行的开头，^\d表示必须以数字开头。

$表示行的结束，\d$表示必须以数字结束。

你可能注意到了，js也可以匹配'jsp'，但是加上^js$就变成了整行匹配，就只能匹配'js'了。

RegExp

有了准备知识，我们就可以在JavaScript中使用正则表达式了。

JavaScript有两种方式创建一个正则表达式：

第一种方式是直接通过/正则表达式/写出来，第二种方式是通过new RegExp('正则表达式')创建一个RegExp对象。

两种写法是一样的：

   
         var 
         re1 = /ABC\-001/;
        
         var 
         re2 = 
         new 
         RegExp(
         'ABC\\-001'
         );
        
         re1; 
         // /ABC\-001/
        
         re2; 
         // /ABC\-001/

注意，如果使用第二种写法，因为字符串的转义问题，字符串的两个\\实际上是一个\。

先看看如何判断正则表达式是否匹配：

   
         var 
         re = /^\d{3}\-\d{3,8}$/;
        
         re.test(
         '010-12345'
         ); 
         // true
        
         re.test(
         '010-1234x'
         ); 
         // false
        
         re.test(
         '010 12345'
         ); 
         // false

RegExp对象的test()方法用于测试给定的字符串是否符合条件。

切分字符串

用正则表达式切分字符串比用固定的字符更灵活，请看正常的切分代码：

   
         'a b   c'
         .split(
         ' '
         ); 
         // ['a', 'b', '', '', 'c']

嗯，无法识别连续的空格，用正则表达式试试：

   
         'a b   c'
         .split(/\s+/); 
         // ['a', 'b', 'c']

无论多少个空格都可以正常分割。加入,试试：

   
         'a,b, c  d'
         .split(/[\s\,]+/); 
         // ['a', 'b', 'c', 'd']

再加入;试试：

   
         'a,b;; c  d'
         .split(/[\s\,\;]+/); 
         // ['a', 'b', 'c', 'd']

如果用户输入了一组标签，下次记得用正则表达式来把不规范的输入转化成正确的数组。

分组

除了简单地判断是否匹配之外，正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组（Group）。比如：

^(\d{3})-(\d{3,8})$分别定义了两个组，可以直接从匹配的字符串中提取出区号和本地号码：

   
         var 
         re = /^(\d{3})-(\d{3,8})$/;
        
         re.exec(
         '010-12345'
         ); 
         // ['010-12345', '010', '12345']
        
         re.exec(
         '010 12345'
         ); 
         // null

如果正则表达式中定义了组，就可以在RegExp对象上用exec()方法提取出子串来。

exec()方法在匹配成功后，会返回一个Array，第一个元素是正则表达式匹配到的整个字符串，后面的字符串表示匹配成功的子串。

exec()方法在匹配失败时返回null。

提取子串非常有用。来看一个更凶残的例子：

   
         var 
         re = /^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$/;
        
         re.exec(
         '19:05:30'
         ); 
         // ['19:05:30', '19', '05', '30']

这个正则表达式可以直接识别合法的时间。但是有些时候，用正则表达式也无法做到完全验证，比如识别日期：

   
         var 
         re = /^(0[1-9]|1[0-2]|[0-9])-(0[1-9]|1[0-9]|2[0-9]|3[0-1]|[0-9])$/;

对于'2-30'，'4-31'这样的非法日期，用正则还是识别不了，或者说写出来非常困难，这时就需要程序配合识别了。

贪婪匹配

需要特别指出的是，正则匹配默认是贪婪匹配，也就是匹配尽可能多的字符。举例如下，匹配出数字后面的0：

   
         var 
         re = /^(\d+)(0*)$/;
        
         re.exec(
         '102300'
         ); 
         // ['102300', '102300', '']

由于\d+采用贪婪匹配，直接把后面的0全部匹配了，结果0*只能匹配空字符串了。

必须让\d+采用非贪婪匹配（也就是尽可能少匹配），才能把后面的0匹配出来，加个?就可以让\d+采用非贪婪匹配：

   
         var 
         re = /^(\d+?)(0*)$/;
        
         re.exec(
         '102300'
         ); 
         // ['102300', '1023', '00']

全局搜索

JavaScript的正则表达式还有几个特殊的标志，最常用的是g，表示全局匹配：

   
         var 
         r1 = /test/g;
        
         // 等价于:
        
         var 
         r2 = 
         new 
         RegExp(
         'test'
         , 
         'g'
         );

全局匹配可以多次执行exec()方法来搜索一个匹配的字符串。当我们指定g标志后，每次运行exec()，正则表达式本身会更新lastIndex属性，表示上次匹配到的最后索引：

   
         // 使用全局匹配:
        
         re.exec(s); 
         // ['JavaScript']
        
         re.lastIndex; 
         // 10
        
         re.exec(s); 
         // ['VBScript']
        
         re.lastIndex; 
         // 20
        
         re.exec(s); 
         // ['JScript']
        
         re.lastIndex; 
         // 29
        
         re.exec(s); 
         // ['ECMAScript']
        
         re.lastIndex; 
         // 44
        
         re.exec(s); 
         // null，直到结束仍没有匹配到

全局匹配类似搜索，因此不能使用/^...$/，那样只会最多匹配一次。

正则表达式还可以指定i标志，表示忽略大小写，m标志，表示执行多行匹配。

2、实例属性

1 global属性：布尔值，表示是否设置了g标志，如果创建RegExp对象实例时设置了g标志，该属性返回true，默认值为false。

2 ignoreCase属性：返回创建RegExp对象实例时指定的ignoreCase标志（i）的状态。如果创建RegExp对象实例时设置了i标志，该属性返回true，否则返回false，默认值为false。

3 multiLine属性：返回创建RegExp对象实例时指定的multiLine标志（m）的状态。如果创建RegExp对象实例时设置了m标志，该属性返回true，否则返回false，默认值为false。

4 source属性：返回创建RegExp对象实例时指定的表达式文本字符串。

5 lastIndex:整数，表示开始搜索下一个匹配项的字符位置，从0算起。

3、构造函数属性：正则RegExp构造函数属性

关于属性的定义，我在这里在重新提一下：

input (简写为$_) 最近一次要匹配的字符串。

lastMatch(简写$&) 最近一次的匹配项

lastParen(简写$+) 最近一次匹配的捕获组。

leftContext(简写$`) input字符串中lastMatch之前的文本

rightContext(简写$') input字符串中lastMatch之后的文本

multiline(简写$*) 布尔值，表示是否所有表达式都使用多行模式。

举例说明

看定义太痛苦了，我们还是举个例子来看下。

var text ="you are in haorooms 博客，看文章呢";
var pattern =/(.)aorooms/g;
if(pattern.test(text)){
   console.log(RegExp.$_); //you are in haorooms 博客，看文章呢
   console.log(RegExp["$`"]);//you are in
   console.log(RegExp["$'"]);//博客，看文章呢
   console.log(RegExp["$&"]);//haorooms
   console.log(RegExp["$+"]);//h
   console.log(RegExp["$*"]);//false
}

当然，也可以不用简写。（有些属性有浏览器兼容问题，Opera和部分IE不支持）。

另外一个问题，大家也看到了，有的我是用“.”有的是用[]，其实作用是一样的。当中文或者特殊符号的时候，我们通常用[]。

存储捕获组的构造函数属性

这些属性的语法是（RegExp.$1,RegExp.$2,RegExp.$3,RegExp.$4,RegExp.$5,RegExp.$6,RegExp.$7,RegExp.$8,RegExp.$9）,一共有9个。官方的解释是，这些可以捕获组的字符串的自动填充。其实，说简单的，就是可以获得（）括号内匹配的字符串。

例子：

var text ="you are in haorooms 博客，看文章呢";
var pattern =/(.)ao(..)om(.)/g;
if(pattern.test(text)){
   console.log(RegExp.$1);//h
  console.log(RegExp.$2);//ro
  console.log(RegExp.$3);//s
 }

3、 RegExp实例方法

ECMAScript通过RegExp类型来支持正则表达式，创建正则表达式有两种方式：

//使用字面量形式定义正则表达式
var pattern1 = /[bc]at/i

//使用构造函数创建
var pattern2 = new RegExp("[bc]at", "i")

//构造函数接受两个参数：要匹配的字符串模式和可选的标志字符串

ECMAScript3中正则表达式字面量始终会共享同一个RegExp实例，而使用构造函数创建的每一个新RegExp实例都是一个新实例。ECMAScript5明确规定，使用正则表达式字面量必须像直接调用RegExp构造函数一样每次都创建新的RegExp实例，故两种创建方式无区别，使用哪一个都无所谓。

exec()方法：接受要应用模式的字符串为参数，返回包含第一个匹配项信息的数组；或者在没有匹配项的情况下返回null。返回到数组是Array的实例。

　返回的数组包含两个额外的属性：index和input。其中，index表示匹配项在字符串中的位置，input表示应用正则表达式的字符串。在数组中，第一项是与整个模式匹配的字符串，其他项是与模式中的捕获组匹配的字符串。

var text = "mom and dad and baby";
var pattern = /mom( and dad( and baby)?)?/gi;
var matches = pattern.exec(text);

alert(matches.index);    //0
alert(matches.input);    //"mom and dad and baby"
alert(matches[0]);       //"mom and dad and baby"
alert(matches[1]);       //" and dad and baby"

alert(matches[2]);       //" and baby"

对于exec()方法而言，即使在模式中设置了全局标志（g），它每次也只会返回一个匹配项。在不设置全局标志的情况下，在同一个字符串上多次调用exec()将始终返回一个匹配项的信息。而在设置全局标志的情况下，每次调用exec()则都会在字符串中继续查找新匹配项，去下面的例子所示。

var text="cat, bat, sat, fat";
var pat1=/.at/;
var mat=pat1.exec(text);
alert(mat.index);//0
alert(mat[0]);//cat
alert(pat1.lastIndex);//0
mat=pat1.exec(text);
alert(mat.index);//0
alert(mat[0]);//cat
alert(pat1.lastIndex);//0
var pat2=/.at/g;
var mat=pat2.exec(text);
alert(mat.index);//0
alert(mat[0]);//cat
alert(pat2.lastIndex);//3
mat=pat2.exec(text);
alert(mat.index);//5
alert(mat[0]);//bat
alert(pat2.lastIndex);//8

复制代码

这个例子中的第一个模式pattern1不是全局模式，因此每次调用exec()返回的都是第一个匹配项（"cat"）。而第二个模式pattern2是全局模式，因此每次调用exec()都会返回字符串的下一个匹配项，直至搜索到字符串末尾为止。此外，还应该注意模式的lastIndex属性的变化情况。在全局匹配模式下，lastIndex的值在每次调用exec()后都会增加，而在全局模式下则始终保持不变。

test()方法：接受一个字符串参数。在模式与该参数匹配的情况下返回true，否则返回false 。

var text = “000-00-0000”;
var pattern = /\d{3}-d{2}-d{4}/;

pattern.test(text);           //true

compile()方法：接收一个字符串参数，用来改变正则表达式的模式匹配值。

var pattern = /abc/;
pattern.test("abc");    //true

pattern.compile("def");
pattern.test("abc");    //false
pattern.test("def");    //true

字符串模式匹配方法

match()方法：接受一个参数（正则表达式或者RegExp对象）。返回一个数组，在数组中，第一项是与整个模式匹配的字符串，其他项是与正则表达式中的捕获组匹配的字符串。

　　　　　　　　（与RegExp对象的exec()方法得到的结果相同）

var text = "cat, bat, sat, fat"; 
var pattern = /.at/;

var matches = text.match(pattern);        
alert(matches.index);        //0
alert(matches[0]);           //"cat"
alert(pattern.lastIndex);    //0

search()方法：接受一个参数（正则表达式或者RegExp对象）。返回字符串中第一个匹配项的索引，没有找到则返回-1。始终是从字符串开头向后查找模式。

var text = "cat, bat, sat, fat";

var pos = text.search(/at/);
alert(pos);   //1

replace()方法：接受两个参数（第一个参数可以是一个RegExp对象或者是一个字符串（这个字符串不会转换为正则表达式），第二个参数可以是一个字符串或者一个函数）

var text = "cat, bat, sat, fat"; 

var result = text.replace("at", "ond");
alert(result);    //"cond, bat, sat, fat"

result = text.replace(/at/g, "ond");
alert(result);    //"cond, bond, sond, fond"

split()方法：接受两个参数（第一个参数可以是一个RegExp对象或者是一个字符串（这个字符串不会转换为正则表达式），第二个参数可选，用于指定返回的数组的大小）

　　　　　　基于指定的分隔符将一个字符串分割成多个子字符串，并将结果放在一个数组中。

var colorText = "red,blue,green,yellow";

var colors1 = colorText.split(",");      //["red", "blue", "green", "yellow"]
var colors2 = colorText.split(",", 2);   //["red", "blue"]
var colors3 = colorText.split(/[^\,]+/); //["", ",", ",", ",", ""]

/[^\,]+/  表示不是逗号的连续字符