1. 第一章 正则表达式字符匹配攻略
- 正则表达式是匹配模式,要么匹配字符,要么匹配位置。 请记住这句话。
- 然而关于正则如何匹配字符的学习,大部分人都觉得这块比较杂乱。
- 毕竟元字符太多了,看起来没有系统性,不好记。本章就解决这个问题。
1.1. 两种模糊匹配
如果正则只有精确匹配是没多大意义的,比如 /hello/
,也只能匹配字符串中的 "hello"
这个子串。
var regex = /hello/;
console.log( regex.test("hello") ); // => true
正则表达式之所以强大,是因为其能实现模糊匹配。 而模糊匹配,有两个方向上的“模糊”:横向模糊和纵向模糊。
1.1.1. 横向模糊匹配
横向模糊指的是,一个正则可匹配的字符串的长度不是固定的,可以是多种情况的。
其实现的方式是使用量词。譬如 {m,n}
,表示连续出现最少 m 次,最多 n 次。
比如正则 /ab{2,5}c/
表示匹配这样一个字符串:第一个字符是 "a"
,接下来是 2 到 5 个字符 "b"
,最后
是字符 "c"
。
测试如下:
var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc"; console.log( string.match(regex) );
// => ["abbc", "abbbc", "abbbbc", "abbbbbc"]
案例中用的正则是 /ab{2,5}c/g
,其中 g
是正则的一个修饰符。表示全局匹配,即,在目标字符串中按顺序找到满足匹配模式的所有子串,强调的是“所有”,而不只是“第一个”
。g
是单词 global 的首字母。
1.1.2. 纵向模糊匹配
纵向模糊指的是,一个正则匹配的字符串,具体到某一位字符时,它可以不是某个确定的字符,可以有多种 可能。
其实现的方式是使用字符组。譬如 [abc],表示该字符是可以字符 “a”、“b”、“c” 中的任何一个。 比如 /a[123]b/ 可以匹配如下三种字符串: “a1b”、“a2b”、“a3b”。
测试如下:
var regex = /a[123]b/g;
var string = "a0b a1b a2b a3b a4b"; console.log( string.match(regex) ); // => ["a1b", "a2b", "a3b"]
以上就是本章讲的主体内容,只要掌握横向和纵向模糊匹配,就能解决很大部分正则匹配问题。 接下来,我们将具体展开来说。
1.2. 字符组
需要强调的是,虽叫字符组(字符类),但只是其中一个字符。
例如 [abc]
,表示匹配一个字符,它可以是 “a”、“b”、“c” 之一。
1.2.2. 排除字符组
纵向模糊匹配,还有一种情形就是,某位字符可以是任何东西,但就不能是 "a"
、"b"
、"c"
。
此时就是排除字符组(反义字符组)的概念。例如 [^abc]
,表示是一个除 "a"
、"b"
、"c"
之外的任意一个字 符。字符组的第一位放 ^
(脱字符),表示求反的概念。
当然,也有相应的范围表示法。
1.2.3. 常见的简写形式
有了字符组的概念后,一些常见的符号我们也就理解了。因为它们都是系统自带的简写形式。
字符组 | 具体含义 |
---|---|
\d | 表示 [0-9] 。表示是一位数字。 记忆方式:其英文是 digit(数字)。 |
\D | 表示 [^0-9] 。表示除数字外的任意字符。 |
\w | 表示 [0-9a-zA-Z_] 。表示数字、大小写字母和下划线。 记忆方式:w 是 word 的简写,也称单词字符。 |
\W | 表示 [^0-9a-zA-Z_] 。非单词字符。 |
\s | 表示 [ \t\v\n\r\f] 。表示空白符,包括空格、水平制表符、垂直制表符、换行符、回车符、换页 符。记忆方式:s 是 space 的首字母,空白符的单词是 white space。 |
\S | 表示 [^ \t\v\n\r\f] 。 非空白符。 |
. | 表示 [^\n\r\u2028\u2029]。通配符,表示几乎任意字符。换行符、回车符、行分隔符和段分隔符 除外。记忆方式:想想省略号 … 中的每个点,都可以理解成占位符,表示任何类似的东西。 |
如果要匹配任意字符怎么办?可以使用 [\d\D]
、[\w\W]
、[\s\S]
和 [^]
中任何的一个。
1.2.1. 范围表示法
如果字符组里的字符特别多的话,怎么办?可以使用范围表示法。
比如 [123456abcdefGHIJKLM]
,可以写成 [1-6a-fG-M]
。用连字符 - 来省略和简写。 因为连字符有特殊用途,那么要匹配 "a"
、"-"
、"z"
这三者中任意一个字符,该怎么做呢? 不能写成 [a-z],因为其表示小写字符中的任何一个字符。
可以写成如下的方式:[-az]
或 [az-]
或 [a\-z]
。 即要么放在开头,要么放在结尾,要么转义。总之不会让引擎认为是范围表示法就行了。
1.3. 量词
量词也称重复。掌握 {m,n}
的准确含义后,只需要记住一些简写形式。
1.3.1. 简写形式
量词 | 具体含义 |
---|---|
{m,} | 表示至少出现 m 次。 |
{m} | 等价于 {m,m} ,表示出现 m 次。 |
? | 等价于 {0,1} ,表示出现或者不出现。 记忆方式:问号的意思表示,有吗? |
+ | 等价于 {1,} ,表示出现至少一次。 记忆方式:加号是追加的意思,得先有一个,然后才考虑追加。 |
* | 等价于 {0,} ,表示出现任意次,有可能不出现。 记忆方式:看看天上的星星,可能一颗没有,可能零散有几颗,可能数也数不过来。 |
1.3.2. 贪婪匹配与惰性匹配
var regex = /\d{2,5}/g;
var string = "123 1234 12345 123456";
console.log(string.match(regex)); // => ["123", "1234", "12345", "12345"]
其中正则 /\d{2,5}/,表示数字连续出现 2 到 5 次。会匹配 2 位、3 位、4 位、5 位连续数字。 但是其是贪婪的,它会尽可能多的匹配。你能给我 6 个,我就要 5 个。你能给我 3 个,我就要 3 个。
反正只要在能力范围内,越多越好。 我们知道有时贪婪不是一件好事(请看文章最后一个例子)。而惰性匹配,就是尽可能少的匹配:
var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log(string.match(regex));
// => ["12", "12", "34", "12", "34", "12", "34", "56"]
其中 /\d{2,5}?/
表示,虽然 2 到 5 次都行,当 2 个就够的时候,就不再往下尝试了
通过在量词后面加个问号就能实现惰性匹配,因此所有惰性匹配情形如下:
惰性量词 | 贪婪量词 |
---|---|
{m,n}? | {m,n} |
{m,}? | {m,} |
?? | ? |
+? | + |
*? | * |
对惰性匹配的记忆方式是:量词后面加个问号,问一问你知足了吗,你很贪婪吗?
3. 第三章 正则表达式括号的作用
- 不管哪门语言中都有括号。正则表达式也是一门语言,而括号的存在使这门语言更为强大。
- 对括号的使用是否得心应手,是衡量对正则的掌握水平的一个侧面标准。
- 括号的作用,其实三言两语就能说明白,括号提供了分组,便于我们引用它。
- 引用某个分组,会有两种情形:在 JavaScript 里引用它,在正则表达式里引用它。
- 本章内容虽相对简单,但我也要写长点。
3.1. 分组和分支结构
这二者是括号最直觉的作用,也是最原始的功能,强调括号内的正则是一个整体,即提供子表达式。
3.1.1. 分组
我们知道 /a+/
匹配连续出现的 "a"
,而要匹配连续出现的 "ab"
时,需要使用 /(ab)+/
。
其中括号是提供分组功能,使量词 +
作用于 "ab"
这个整体,测试如下:
var regex = /(ab)+/g;
var string = "ababa abbb ababab";
console.log( string.match(regex) ); // => ["abab", "ab", "ababab"]
3.1.2. 分支结构
而在多选分支结构 (p1|p2)
中,此处括号的作用也是不言而喻的,提供了分支表达式的所有可能。
比如,要匹配如下的字符串:
I love JavaScript
I love Regular Expression
可以使用正则:
var regex = /^I love (JavaScript|Regular Expression)$/;
console.log( regex.test("I love JavaScript") ); // => true
console.log( regex.test("I love Regular Expression") ); // => true
如果去掉正则中的括号,即:
/^I love JavaScript|Regular Expression$/
,
匹配字符串是 "I love JavaScript"
和 "Regular Expression"
,当然这不是我们想要的。
3.2. 分组引用
这是括号一个重要的作用,有了它,我们就可以进行数据提取,以及更强大的替换操作。
而要使用它带来的好处,必须配合使用实现环境的 API。 以日期为例。假设格式是 yyyy-mm-dd
的,我们可以先写一个简单的正则:
var regex = /\d{4}-\d{2}-\d{2}/;
其可视化形式是:
然后再修改成括号版的:
var regex = /(\d{4})-(\d{2})-(\d{2})/;
其可视化形式是:
对比这两个可视化图片,我们发现,与前者相比,后者多了分组编号,如 Group #1
。
其实正则引擎也是这么做的,在匹配过程中,给每一个分组都开辟一个空间,用来存储每一个分组匹配到的
数据。
既然分组可以捕获数据,那么我们就可以使用它们。
3.2.1. 提取数据
比如提取出年、月、日,可以这么做:
var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
console.log( string.match(regex) );
// => ["2017-06-12", "2017", "06", "12", index: 0, input: "2017-06-12"]
match
返回的一个数组,第一个元素是整体匹配结果,然后是各个分组(括号里)匹配的内容,然后是匹配下标,最后是输入的文本。另外,正则表达式是否有修饰符 g
,match
返回的数组格式是不一样的。
另外也可以使用正则实例对象的 exec
方法:
var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
console.log( regex.exec(string) );
// => ["2017-06-12", "2017", "06", "12", index: 0, input: "2017-06-12"]
同时,也可以使用构造函数的全局属性 $1
至 $9
来获取:
var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
regex.test(string); // 正则操作即可,例如 //regex.exec(string); //string.match(regex);
console.log(RegExp.$1); // "2017"
console.log(RegExp.$2); // "06"
console.log(RegExp.$3); // "12"
3.2.2. 替换
比如,想把 yyyy-mm-dd 格式,替换成 mm/dd/yyyy 怎么做?
var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, "$2/$3/$1");
console.log(result);
// => "06/12/2017"
其中 replace
中的,第二个参数里用 $1、$2、$3 指代相应的分组。等价于如下的形式:
var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, function () {
return RegExp.$2 + "/" + RegExp.$3 + "/" + RegExp.$1; });
console.log(result);
// => "06/12/2017"
也等价于:
var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, function (match, year, month, day) {
return month + "/" + day + "/" + year;
});
console.log(result);
// => "06/12/2017"
3.3. 反向引用
除了使用相应 API 来引用分组,也可以在正则本身里引用分组。但只能引用之前出现的分组,即反向引用。 还是以日期为例。
比如要写一个正则支持匹配如下三种格式:
2016-06-12
2016/06/12
2016.06.12
最先可能想到的正则是:
var regex = /\d{4}(-|\/|\.)\d{2}(-|\/|\.)\d{2}/; var string1 = "2017-06-12";
var string2 = "2017/06/12";
var string3 = "2017.06.12";
var string4 = "2016-06/12";
console.log( regex.test(string1) ); // true
console.log( regex.test(string2) ); // true
console.log( regex.test(string3) ); // true
console.log( regex.test(string4) ); // true
其中 /
和 .
需要转义。虽然匹配了要求的情况,但也匹配 "2016-06/12"
这样的数据。 假设我们想要求分割符前后一致怎么办?此时需要使用反向引用:
var regex = /\d{4}(-|\/|\.)\d{2}\1\d{2}/; var string1 = "2017-06-12";
var string2 = "2017/06/12";
var string3 = "2017.06.12";
var string4 = "2016-06/12";
console.log( regex.test(string1) ); // true
console.log( regex.test(string2) ); // true
console.log( regex.test(string3) ); // true
console.log( regex.test(string4) ); // false
其可视化形式是:
注意里面的 \1
,表示的引用之前的那个分组 (-|\/|\.)
。不管它匹配到什么(比如 -
),\1
都匹配那个同 样的具体某个字符。
我们知道了 \1
的含义后,那么 \2
和 \3
的概念也就理解了,即分别指代第二个和第三个分组。
看到这里,此时,恐怕你会有几个问题。
3.3.1. 括号嵌套怎么办?
以左括号(开括号)为准。比如:
var regex = /^((\d)(\d(\d)))\1\2\3\4$/; var string = "1231231233";
console.log( regex.test(string) ); // true
console.log( RegExp.$1 ); // 123
console.log( RegExp.$2 ); // 1
console.log( RegExp.$3 ); // 23
console.log( RegExp.$4 ); // 3
我们可以看看这个正则匹配模式:
- 第一个字符是数字,比如说 “1”,
- 第二个字符是数字,比如说 “2”,
- 第三个字符是数字,比如说 “3”,
- 接下来的是 \1,是第一个分组内容,那么看第一个开括号对应的分组是什么,是 “123”,
- 接下来的是 \2,找到第2个开括号,对应的分组,匹配的内容是 “1”,
- 接下来的是 \3,找到第3个开括号,对应的分组,匹配的内容是 “23”,
- 最后的是 \4,找到第3个开括号,对应的分组,匹配的内容是 “3”。
此正则的可视化形式是:
3.3.2. \10 表示什么呢?
另外一个疑问可能是,即 \10
是表示第 10
个分组,还是 \1
和 0
呢?
答案是前者,虽然一个正则里出现 \10
比较罕见。测试如下:
var regex = /(1)(2)(3)(4)(5)(6)(7)(8)(9)(#) \10+/;
var string = "123456789# ######"
console.log( regex.test(string) );
// => true
如果真要匹配 \1
和 0
的话,请使用 (?:\1)0
或者 \1(?:0)
。
3.3.3. 引用不存在的分组会怎样?
因为反向引用,是引用前面的分组,但我们在正则里引用了不存在的分组时,此时正则不会报错,只是匹配 反向引用的字符本身。例如 \2
,就匹配 "\2"
。注意 "\2"
表示对 "2"
进行了转义。
var regex = /\1\2\3\4\5\6\7\8\9/;
console.log( regex.test("\1\2\3\4\5\6\7\8\9") );
console.log( "\1\2\3\4\5\6\7\8\9".split("") );
Chrome 浏览器打印的结果(不同的浏览器和版本,打印的结果可能不一样):
3.3.4. 分组后面有量词会怎样?
分组后面有量词的话,分组最终捕获到的数据是最后一次的匹配。比如如下的测试案例:
var regex = /(\d)+/;
var string = "12345";
console.log( string.match(regex) );
// => ["12345", "5", index: 0, input: "12345"]
从上面看出,分组 (\d)
捕获的数据是 "5"
。
同理对于反向引用,也是这样的。测试如下:
var regex = /(\d)+ \1/;
console.log( regex.test("12345 1") ); // => false
console.log( regex.test("12345 5") ); // => true
3.4. 非捕获括号
之前文中出现的括号,都会捕获它们匹配到的数据,以便后续引用,因此也称它们是捕获型分组和捕获型分
支。
如果只想要括号最原始的功能,但不会引用它,即,既不在 API 里引用,也不在正则里反向引用。
此时可以使用非捕获括号 (?:p)
和 (?:p1|p2|p3)
,例如本章第一个例子可以修改为:
var regex = /(?:ab)+/g;
var string = "ababa abbb ababab";
console.log( string.match(regex) ); // => ["abab", "ab", "ababab"]
同理,第二例子可以修改为:
var regex = /^I love (?:JavaScript|Regular Expression)$/; console.log( regex.test("I love JavaScript") ); // => true
console.log( regex.test("I love Regular Expression") ); // => true
7. 第七章 正则表达式编程
7.2.7. replace 是很强大的
《JavaScript 权威指南》认为 exec
是这 6 个 API 中最强大的,而我始终认为 replace
才是最强大的。
因为它也能拿到该拿到的信息,然后可以假借替换之名,做些其他事情。
总体来说 replace
有两种使用形式,这是因为它的第二个参数,可以是字符串,也可以是函数。
当第二个参数是字符串时,如下的字符有特殊的含义:
属性 | 描述 |
---|---|
$1,$2,…,$99 | 匹配第 1-99 个 分组里捕获的文本 |
$& | 匹配到的子串文本 |
$` | 匹配到的子串的左边文本 |
$’ | 匹配到的子串的右边文本 |
$$ | 美元符号 |
例如,把 "2,3,5"
,变成 "5=2+3"
:
var result = "2,3,5".replace(/(\d+),(\d+),(\d+)/, "$3=$1+$2"); console.log(result);
// => "5=2+3"
又例如,把 "2,3,5"
,变成 "222,333,555"
:
var result = "2,3,5".replace(/(\d+)/g, "$&$&$&"); console.log(result);
// => "222,333,555"
再例如,把 "2+3=5"
,变成 "2+3=2+3=5=5"
:
var result = "2+3=5".replace(/=/, "$&$`$&$'$&");
console.log(result);
// => "2+3=2+3=5=5"
我们对最后这个进行一下说明。要把 "2+3=5"
,变成 "2+3=2+3=5=5"
,其实就是想办法把 = 替换成
=2+3=5=
,其中,$&
匹配的是 =
, $
匹配的是 2+3
,$'
匹配的是 5
。因此使用"$&$`$&$'$&"
便达成了 目的。
当第二个参数是函数时,我们需要注意该回调函数的参数具体是什么:
"1234 2345 3456".replace(/(\d)\d{2}(\d)/g, function (match, $1, $2, index, input) {
console.log([match, $1, $2, index, input]);
});
// => ["1234", "1", "4", 0, "1234 2345 3456"]
// => ["2345", "2", "5", 5, "1234 2345 3456"]
// => ["3456", "3", "6", 10, "1234 2345 3456"]
此时我们可以看到 replace
拿到的信息,并不比 exec
少。
7.2.8. 使用构造函数需要注意的问题
一般不推荐使用构造函数生成正则,而应该优先使用字面量。因为用构造函数会多写很多 \
。
var string = "2017-06-27 2017.06.27 2017/06/27"; var regex = /\d{4}(-|\.|\/)\d{2}\1\d{2}/g;
console.log( string.match(regex) );
// => ["2017-06-27", "2017.06.27", "2017/06/27"]
regex = new RegExp("\\d{4}(-|\\.|\\/)\\d{2}\\1\\d{2}", "g");
console.log( string.match(regex) );
// => ["2017-06-27", "2017.06.27", "2017/06/27"]
7.2.9. 修饰符
ES5 中修饰符,共 3 个:
修饰符 | 描述 |
---|---|
g | 全局匹配,即找到所有匹配的,单词是 global。 |
i | 忽略字母大小写,单词是 ingoreCase。 |
m | 多行匹配,即是遇到换行后不停止匹配,直到结束。单词是 multiline。 |
当然正则对象也有相应的只读属性:
var regex = /\w/img; console.log( regex.global ); console.log( regex.ignoreCase ); console.log( regex.multiline ); // => true
// => true
// => true