正则表达式总结

1. 第一章 正则表达式字符匹配攻略

  • 正则表达式是匹配模式,要么匹配字符,要么匹配位置。 请记住这句话。
  • 然而关于正则如何匹配字符的学习,大部分人都觉得这块比较杂乱。
  • 毕竟元字符太多了,看起来没有系统性,不好记。本章就解决这个问题。

1.1. 两种模糊匹配

如果正则只有精确匹配是没多大意义的,比如 /hello/,也只能匹配字符串中的 "hello" 这个子串。

var regex = /hello/;
console.log( regex.test("hello") ); // => true

正则表达式之所以强大,是因为其能实现模糊匹配。 而模糊匹配,有两个方向上的“模糊”:横向模糊和纵向模糊。

1.1.1. 横向模糊匹配

横向模糊指的是,一个正则可匹配的字符串的长度不是固定的,可以是多种情况的。
其实现的方式是使用量词。譬如 {m,n},表示连续出现最少 m 次,最多 n 次。
比如正则 /ab{2,5}c/ 表示匹配这样一个字符串:第一个字符是 "a",接下来是 2 到 5 个字符 "b",最后
是字符 "c"

测试如下:

var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc"; console.log( string.match(regex) );
// => ["abbc", "abbbc", "abbbbc", "abbbbbc"]

案例中用的正则是 /ab{2,5}c/g,其中 g 是正则的一个修饰符。表示全局匹配,即,在目标字符串中按顺序找到满足匹配模式的所有子串,强调的是“所有”,而不只是“第一个”
g 是单词 global 的首字母。

1.1.2. 纵向模糊匹配

纵向模糊指的是,一个正则匹配的字符串,具体到某一位字符时,它可以不是某个确定的字符,可以有多种 可能。
其实现的方式是使用字符组。譬如 [abc],表示该字符是可以字符 “a”、“b”、“c” 中的任何一个。 比如 /a[123]b/ 可以匹配如下三种字符串: “a1b”、“a2b”、“a3b”。

测试如下:

var regex = /a[123]b/g;
var string = "a0b a1b a2b a3b a4b"; console.log( string.match(regex) ); // => ["a1b", "a2b", "a3b"]

以上就是本章讲的主体内容,只要掌握横向和纵向模糊匹配,就能解决很大部分正则匹配问题。 接下来,我们将具体展开来说。

1.2. 字符组

需要强调的是,虽叫字符组(字符类),但只是其中一个字符
例如 [abc],表示匹配一个字符,它可以是 “a”、“b”、“c” 之一。

1.2.2. 排除字符组

纵向模糊匹配,还有一种情形就是,某位字符可以是任何东西,但就不能是 "a""b""c"
此时就是排除字符组(反义字符组)的概念。例如 [^abc],表示是一个除 "a""b""c"之外的任意一个字 符。字符组的第一位放 ^(脱字符),表示求反的概念。
当然,也有相应的范围表示法。

1.2.3. 常见的简写形式

有了字符组的概念后,一些常见的符号我们也就理解了。因为它们都是系统自带的简写形式。

字符组具体含义
\d表示 [0-9]。表示是一位数字。 记忆方式:其英文是 digit(数字)。
\D表示 [^0-9]。表示除数字外的任意字符。
\w表示 [0-9a-zA-Z_]。表示数字、大小写字母和下划线。 记忆方式:w 是 word 的简写,也称单词字符。
\W表示 [^0-9a-zA-Z_]。非单词字符。
\s表示 [ \t\v\n\r\f]。表示空白符,包括空格、水平制表符、垂直制表符、换行符、回车符、换页 符。记忆方式:s 是 space 的首字母,空白符的单词是 white space。
\S表示 [^ \t\v\n\r\f]。 非空白符。
.表示 [^\n\r\u2028\u2029]。通配符,表示几乎任意字符。换行符、回车符、行分隔符和段分隔符 除外。记忆方式:想想省略号 … 中的每个点,都可以理解成占位符,表示任何类似的东西。

如果要匹配任意字符怎么办?可以使用 [\d\D][\w\W][\s\S][^] 中任何的一个。

1.2.1. 范围表示法

如果字符组里的字符特别多的话,怎么办?可以使用范围表示法。
比如 [123456abcdefGHIJKLM],可以写成 [1-6a-fG-M]。用连字符 - 来省略和简写。 因为连字符有特殊用途,那么要匹配 "a""-""z" 这三者中任意一个字符,该怎么做呢? 不能写成 [a-z],因为其表示小写字符中的任何一个字符。
可以写成如下的方式:[-az][az-][a\-z]。 即要么放在开头,要么放在结尾,要么转义。总之不会让引擎认为是范围表示法就行了。

1.3. 量词

量词也称重复。掌握 {m,n} 的准确含义后,只需要记住一些简写形式。

1.3.1. 简写形式

量词具体含义
{m,}表示至少出现 m 次。
{m}等价于 {m,m},表示出现 m 次。
?等价于 {0,1},表示出现或者不出现。 记忆方式:问号的意思表示,有吗?
+等价于 {1,},表示出现至少一次。 记忆方式:加号是追加的意思,得先有一个,然后才考虑追加。
*等价于 {0,},表示出现任意次,有可能不出现。 记忆方式:看看天上的星星,可能一颗没有,可能零散有几颗,可能数也数不过来。

1.3.2. 贪婪匹配与惰性匹配

  var regex = /\d{2,5}/g;
  var string = "123 1234 12345 123456";
  console.log(string.match(regex)); // =>  ["123", "1234", "12345", "12345"]

其中正则 /\d{2,5}/,表示数字连续出现 2 到 5 次。会匹配 2 位、3 位、4 位、5 位连续数字。 但是其是贪婪的,它会尽可能多的匹配。你能给我 6 个,我就要 5 个。你能给我 3 个,我就要 3 个。

反正只要在能力范围内,越多越好。 我们知道有时贪婪不是一件好事(请看文章最后一个例子)。而惰性匹配,就是尽可能少的匹配:

var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log(string.match(regex));
// => ["12", "12", "34", "12", "34", "12", "34", "56"]

其中 /\d{2,5}?/ 表示,虽然 2 到 5 次都行,当 2 个就够的时候,就不再往下尝试了

通过在量词后面加个问号就能实现惰性匹配,因此所有惰性匹配情形如下:

惰性量词贪婪量词
{m,n}?{m,n}
{m,}?{m,}
???
+?+
*?*

对惰性匹配的记忆方式是:量词后面加个问号,问一问你知足了吗,你很贪婪吗?

3. 第三章 正则表达式括号的作用

  • 不管哪门语言中都有括号。正则表达式也是一门语言,而括号的存在使这门语言更为强大。
  • 对括号的使用是否得心应手,是衡量对正则的掌握水平的一个侧面标准。
  • 括号的作用,其实三言两语就能说明白,括号提供了分组,便于我们引用它。
  • 引用某个分组,会有两种情形:在 JavaScript 里引用它,在正则表达式里引用它。
  • 本章内容虽相对简单,但我也要写长点。

3.1. 分组和分支结构

这二者是括号最直觉的作用,也是最原始的功能,强调括号内的正则是一个整体,即提供子表达式。

3.1.1. 分组

我们知道 /a+/ 匹配连续出现的 "a",而要匹配连续出现的 "ab" 时,需要使用 /(ab)+/
其中括号是提供分组功能,使量词 + 作用于 "ab" 这个整体,测试如下:

var regex = /(ab)+/g;
var string = "ababa abbb ababab"; 
console.log( string.match(regex) ); // => ["abab", "ab", "ababab"]

3.1.2. 分支结构

而在多选分支结构 (p1|p2) 中,此处括号的作用也是不言而喻的,提供了分支表达式的所有可能。
比如,要匹配如下的字符串:

I love JavaScript
I love Regular Expression

可以使用正则:

var regex = /^I love (JavaScript|Regular Expression)$/; 
console.log( regex.test("I love JavaScript") ); // => true
console.log( regex.test("I love Regular Expression") ); // => true

如果去掉正则中的括号,即:
/^I love JavaScript|Regular Expression$/
匹配字符串是 "I love JavaScript""Regular Expression",当然这不是我们想要的。

3.2. 分组引用

这是括号一个重要的作用,有了它,我们就可以进行数据提取,以及更强大的替换操作。
而要使用它带来的好处,必须配合使用实现环境的 API。 以日期为例。假设格式是 yyyy-mm-dd 的,我们可以先写一个简单的正则:

var regex = /\d{4}-\d{2}-\d{2}/;

其可视化形式是: 在这里插入图片描述

然后再修改成括号版的:

var regex = /(\d{4})-(\d{2})-(\d{2})/;

其可视化形式是:
在这里插入图片描述

对比这两个可视化图片,我们发现,与前者相比,后者多了分组编号,如 Group #1
其实正则引擎也是这么做的,在匹配过程中,给每一个分组都开辟一个空间,用来存储每一个分组匹配到的
数据。
既然分组可以捕获数据,那么我们就可以使用它们。

3.2.1. 提取数据

比如提取出年、月、日,可以这么做:

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
console.log( string.match(regex) );
// => ["2017-06-12", "2017", "06", "12", index: 0, input: "2017-06-12"]

match 返回的一个数组,第一个元素是整体匹配结果,然后是各个分组(括号里)匹配的内容,然后是匹配下标,最后是输入的文本。另外,正则表达式是否有修饰符 gmatch
返回的数组格式是不一样的。

另外也可以使用正则实例对象的 exec 方法:

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
console.log( regex.exec(string) );
// => ["2017-06-12", "2017", "06", "12", index: 0, input: "2017-06-12"]

同时,也可以使用构造函数的全局属性 $1$9 来获取:

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
regex.test(string); // 正则操作即可,例如 //regex.exec(string); //string.match(regex);
console.log(RegExp.$1); // "2017" 
console.log(RegExp.$2); // "06" 
console.log(RegExp.$3); // "12"

3.2.2. 替换

比如,想把 yyyy-mm-dd 格式,替换成 mm/dd/yyyy 怎么做?

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, "$2/$3/$1"); 
console.log(result);
// => "06/12/2017"

其中 replace 中的,第二个参数里用 $1、$2、$3 指代相应的分组。等价于如下的形式:

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, function () {
return RegExp.$2 + "/" + RegExp.$3 + "/" + RegExp.$1; });
console.log(result);
// => "06/12/2017"

也等价于:

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, function (match, year, month, day) {
      return month + "/" + day + "/" + year;
  });
console.log(result);
// => "06/12/2017"

3.3. 反向引用

除了使用相应 API 来引用分组,也可以在正则本身里引用分组。但只能引用之前出现的分组,即反向引用。 还是以日期为例。
比如要写一个正则支持匹配如下三种格式:

2016-06-12
2016/06/12
2016.06.12

最先可能想到的正则是:


var regex = /\d{4}(-|\/|\.)\d{2}(-|\/|\.)\d{2}/; var string1 = "2017-06-12";
var string2 = "2017/06/12";
var string3 = "2017.06.12";
var string4 = "2016-06/12";
console.log( regex.test(string1) ); // true 
console.log( regex.test(string2) ); // true 
console.log( regex.test(string3) ); // true 
console.log( regex.test(string4) ); // true

其中 /. 需要转义。虽然匹配了要求的情况,但也匹配 "2016-06/12" 这样的数据。 假设我们想要求分割符前后一致怎么办?此时需要使用反向引用:

var regex = /\d{4}(-|\/|\.)\d{2}\1\d{2}/; var string1 = "2017-06-12";
var string2 = "2017/06/12";
var string3 = "2017.06.12";
var string4 = "2016-06/12";
console.log( regex.test(string1) ); // true 
console.log( regex.test(string2) ); // true 
console.log( regex.test(string3) ); // true 
console.log( regex.test(string4) ); // false

其可视化形式是:
在这里插入图片描述
注意里面的 \1,表示的引用之前的那个分组 (-|\/|\.)。不管它匹配到什么(比如 -),\1 都匹配那个同 样的具体某个字符。

我们知道了 \1 的含义后,那么 \2\3 的概念也就理解了,即分别指代第二个和第三个分组。

看到这里,此时,恐怕你会有几个问题。

3.3.1. 括号嵌套怎么办?

以左括号(开括号)为准。比如:

var regex = /^((\d)(\d(\d)))\1\2\3\4$/; var string = "1231231233";
console.log( regex.test(string) ); // true 
console.log( RegExp.$1 ); // 123 
console.log( RegExp.$2 ); // 1 
console.log( RegExp.$3 ); // 23 
console.log( RegExp.$4 ); // 3

我们可以看看这个正则匹配模式:

  • 第一个字符是数字,比如说 “1”,
  • 第二个字符是数字,比如说 “2”,
  • 第三个字符是数字,比如说 “3”,
  • 接下来的是 \1,是第一个分组内容,那么看第一个开括号对应的分组是什么,是 “123”,
  • 接下来的是 \2,找到第2个开括号,对应的分组,匹配的内容是 “1”,
  • 接下来的是 \3,找到第3个开括号,对应的分组,匹配的内容是 “23”,
  • 最后的是 \4,找到第3个开括号,对应的分组,匹配的内容是 “3”。

此正则的可视化形式是:
在这里插入图片描述

3.3.2. \10 表示什么呢?

另外一个疑问可能是,即 \10 是表示第 10 个分组,还是 \10 呢?
答案是前者,虽然一个正则里出现 \10 比较罕见。测试如下:

var regex = /(1)(2)(3)(4)(5)(6)(7)(8)(9)(#) \10+/; 
var string = "123456789# ######"
console.log( regex.test(string) );
// => true

如果真要匹配 \10 的话,请使用 (?:\1)0 或者 \1(?:0)

3.3.3. 引用不存在的分组会怎样?

因为反向引用,是引用前面的分组,但我们在正则里引用了不存在的分组时,此时正则不会报错,只是匹配 反向引用的字符本身。例如 \2,就匹配 "\2"。注意 "\2" 表示对 "2" 进行了转义。

var regex = /\1\2\3\4\5\6\7\8\9/;
console.log( regex.test("\1\2\3\4\5\6\7\8\9") ); 
console.log( "\1\2\3\4\5\6\7\8\9".split("") );

Chrome 浏览器打印的结果(不同的浏览器和版本,打印的结果可能不一样):
在这里插入图片描述

3.3.4. 分组后面有量词会怎样?

分组后面有量词的话,分组最终捕获到的数据是最后一次的匹配。比如如下的测试案例:

 var regex = /(\d)+/;
var string = "12345";
console.log( string.match(regex) );
// => ["12345", "5", index: 0, input: "12345"]

从上面看出,分组 (\d) 捕获的数据是 "5"
同理对于反向引用,也是这样的。测试如下:

var regex = /(\d)+ \1/;
console.log( regex.test("12345 1") ); // => false
console.log( regex.test("12345 5") ); // => true

3.4. 非捕获括号

之前文中出现的括号,都会捕获它们匹配到的数据,以便后续引用,因此也称它们是捕获型分组和捕获型分
支。
如果只想要括号最原始的功能,但不会引用它,即,既不在 API 里引用,也不在正则里反向引用。
此时可以使用非捕获括号 (?:p)(?:p1|p2|p3),例如本章第一个例子可以修改为:

var regex = /(?:ab)+/g;
var string = "ababa abbb ababab"; 
console.log( string.match(regex) ); // => ["abab", "ab", "ababab"]

同理,第二例子可以修改为:

var regex = /^I love (?:JavaScript|Regular Expression)$/; console.log( regex.test("I love JavaScript") ); // => true
console.log( regex.test("I love Regular Expression") ); // => true

7. 第七章 正则表达式编程

7.2.7. replace 是很强大的
《JavaScript 权威指南》认为 exec 是这 6 个 API 中最强大的,而我始终认为 replace 才是最强大的。
因为它也能拿到该拿到的信息,然后可以假借替换之名,做些其他事情。
总体来说 replace 有两种使用形式,这是因为它的第二个参数,可以是字符串,也可以是函数。
当第二个参数是字符串时,如下的字符有特殊的含义:

属性描述
$1,$2,…,$99匹配第 1-99 个 分组里捕获的文本
$&匹配到的子串文本
$`匹配到的子串的左边文本
$’匹配到的子串的右边文本
$$美元符号

例如,把 "2,3,5",变成 "5=2+3":

var result = "2,3,5".replace(/(\d+),(\d+),(\d+)/, "$3=$1+$2"); console.log(result);
// => "5=2+3"

又例如,把 "2,3,5",变成 "222,333,555":

var result = "2,3,5".replace(/(\d+)/g, "$&$&$&"); console.log(result);
// => "222,333,555"

再例如,把 "2+3=5",变成 "2+3=2+3=5=5":

var result = "2+3=5".replace(/=/, "$&$`$&$'$&"); 
console.log(result);
// => "2+3=2+3=5=5"

我们对最后这个进行一下说明。要把 "2+3=5",变成 "2+3=2+3=5=5",其实就是想办法把 = 替换成
=2+3=5=,其中,$& 匹配的是 =$匹配的是 2+3$' 匹配的是 5。因此使用"$&$`$&$'$&"便达成了 目的。

当第二个参数是函数时,我们需要注意该回调函数的参数具体是什么:

"1234 2345 3456".replace(/(\d)\d{2}(\d)/g, function (match, $1, $2, index, input) { 
	console.log([match, $1, $2, index, input]);
});
  // => ["1234", "1", "4", 0, "1234 2345 3456"]
  // => ["2345", "2", "5", 5, "1234 2345 3456"]
  // => ["3456", "3", "6", 10, "1234 2345 3456"]

此时我们可以看到 replace 拿到的信息,并不比 exec 少。

7.2.8. 使用构造函数需要注意的问题

一般不推荐使用构造函数生成正则,而应该优先使用字面量。因为用构造函数会多写很多 \

var string = "2017-06-27 2017.06.27 2017/06/27"; var regex = /\d{4}(-|\.|\/)\d{2}\1\d{2}/g; 
console.log( string.match(regex) );
// => ["2017-06-27", "2017.06.27", "2017/06/27"]
regex = new RegExp("\\d{4}(-|\\.|\\/)\\d{2}\\1\\d{2}", "g"); 
console.log( string.match(regex) );
// => ["2017-06-27", "2017.06.27", "2017/06/27"]

7.2.9. 修饰符

ES5 中修饰符,共 3 个:

修饰符描述
g全局匹配,即找到所有匹配的,单词是 global。
i忽略字母大小写,单词是 ingoreCase。
m多行匹配,即是遇到换行后不停止匹配,直到结束。单词是 multiline。

当然正则对象也有相应的只读属性:

var regex = /\w/img; console.log( regex.global ); console.log( regex.ignoreCase ); console.log( regex.multiline ); // => true
// => true
// => true
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值