正则表达式总结

最新推荐文章于 2023-07-06 15:47:50 发布

web_blog

最新推荐文章于 2023-07-06 15:47:50 发布

阅读量244

点赞数

分类专栏：正则表达式 javascript

本文链接：https://blog.csdn.net/qq_43248623/article/details/108440933

版权

javascript 同时被 2 个专栏收录

51 篇文章 0 订阅

订阅专栏

正则表达式

2 篇文章 0 订阅

订阅专栏

1. 第一章正则表达式字符匹配攻略

正则表达式是匹配模式，要么匹配字符，要么匹配位置。请记住这句话。
然而关于正则如何匹配字符的学习，大部分人都觉得这块比较杂乱。
毕竟元字符太多了，看起来没有系统性，不好记。本章就解决这个问题。

1.1. 两种模糊匹配

如果正则只有精确匹配是没多大意义的，比如 /hello/，也只能匹配字符串中的 "hello" 这个子串。

var regex = /hello/;
console.log( regex.test("hello") ); // => true

正则表达式之所以强大，是因为其能实现模糊匹配。而模糊匹配，有两个方向上的“模糊”:横向模糊和纵向模糊。

1.1.1. 横向模糊匹配

横向模糊指的是，一个正则可匹配的字符串的长度不是固定的，可以是多种情况的。
其实现的方式是使用量词。譬如 {m,n}，表示连续出现最少 m 次，最多 n 次。
比如正则 /ab{2,5}c/ 表示匹配这样一个字符串:第一个字符是 "a"，接下来是 2 到 5 个字符 "b"，最后
是字符 "c"。

测试如下:

var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc"; console.log( string.match(regex) );
// => ["abbc", "abbbc", "abbbbc", "abbbbbc"]

案例中用的正则是 /ab{2,5}c/g，其中 g 是正则的一个修饰符。表示全局匹配，即，在目标字符串中按顺序找到满足匹配模式的所有子串，强调的是“所有”，而不只是“第一个”
。g 是单词 global 的首字母。

1.1.2. 纵向模糊匹配

纵向模糊指的是，一个正则匹配的字符串，具体到某一位字符时，它可以不是某个确定的字符，可以有多种可能。
其实现的方式是使用字符组。譬如 [abc]，表示该字符是可以字符 “a”、“b”、“c” 中的任何一个。比如 /a[123]b/ 可以匹配如下三种字符串: “a1b”、“a2b”、“a3b”。

测试如下:

var regex = /a[123]b/g;
var string = "a0b a1b a2b a3b a4b"; console.log( string.match(regex) ); // => ["a1b", "a2b", "a3b"]

以上就是本章讲的主体内容，只要掌握横向和纵向模糊匹配，就能解决很大部分正则匹配问题。接下来，我们将具体展开来说。

1.2. 字符组

需要强调的是，虽叫字符组(字符类)，但只是其中一个字符。
例如 [abc]，表示匹配一个字符，它可以是 “a”、“b”、“c” 之一。

1.2.2. 排除字符组

纵向模糊匹配，还有一种情形就是，某位字符可以是任何东西，但就不能是 "a"、"b"、"c"。
此时就是排除字符组(反义字符组)的概念。例如 [^abc]，表示是一个除 "a"、"b"、"c"之外的任意一个字符。字符组的第一位放 ^(脱字符)，表示求反的概念。
当然，也有相应的范围表示法。

1.2.3. 常见的简写形式

有了字符组的概念后，一些常见的符号我们也就理解了。因为它们都是系统自带的简写形式。

字符组	具体含义
`\d`	表示 `[0-9]`。表示是一位数字。记忆方式:其英文是 digit(数字)。
`\D`	表示 `[^0-9]`。表示除数字外的任意字符。
`\w`	表示 `[0-9a-zA-Z_]`。表示数字、大小写字母和下划线。记忆方式:w 是 word 的简写，也称单词字符。
`\W`	表示 `[^0-9a-zA-Z_]`。非单词字符。
`\s`	表示 `[ \t\v\n\r\f]`。表示空白符，包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。记忆方式:s 是 space 的首字母，空白符的单词是 white space。
`\S`	表示 `[^ \t\v\n\r\f]`。非空白符。
.	表示 [^\n\r\u2028\u2029]。通配符，表示几乎任意字符。换行符、回车符、行分隔符和段分隔符除外。记忆方式:想想省略号 … 中的每个点，都可以理解成占位符，表示任何类似的东西。

如果要匹配任意字符怎么办?可以使用 [\d\D]、[\w\W]、[\s\S] 和 [^] 中任何的一个。

1.2.1. 范围表示法

如果字符组里的字符特别多的话，怎么办?可以使用范围表示法。
比如 [123456abcdefGHIJKLM]，可以写成 [1-6a-fG-M]。用连字符 - 来省略和简写。因为连字符有特殊用途，那么要匹配 "a"、"-"、"z" 这三者中任意一个字符，该怎么做呢? 不能写成 [a-z]，因为其表示小写字符中的任何一个字符。
可以写成如下的方式:[-az] 或 [az-] 或 [a\-z]。即要么放在开头，要么放在结尾，要么转义。总之不会让引擎认为是范围表示法就行了。

1.3. 量词

量词也称重复。掌握 {m,n} 的准确含义后，只需要记住一些简写形式。

1.3.1. 简写形式

量词	具体含义
`{m,}`	表示至少出现 m 次。
`{m}`	等价于 `{m,m}`，表示出现 m 次。
`?`	等价于 `{0,1}`，表示出现或者不出现。记忆方式:问号的意思表示，有吗?
`+`	等价于 `{1,}`，表示出现至少一次。记忆方式:加号是追加的意思，得先有一个，然后才考虑追加。
`*`	等价于 `{0,}`，表示出现任意次，有可能不出现。记忆方式:看看天上的星星，可能一颗没有，可能零散有几颗，可能数也数不过来。

1.3.2. 贪婪匹配与惰性匹配

  var regex = /\d{2,5}/g;
  var string = "123 1234 12345 123456";
  console.log(string.match(regex)); // =>  ["123", "1234", "12345", "12345"]

其中正则 /\d{2,5}/，表示数字连续出现 2 到 5 次。会匹配 2 位、3 位、4 位、5 位连续数字。但是其是贪婪的，它会尽可能多的匹配。你能给我 6 个，我就要 5 个。你能给我 3 个，我就要 3 个。

反正只要在能力范围内，越多越好。我们知道有时贪婪不是一件好事(请看文章最后一个例子)。而惰性匹配，就是尽可能少的匹配:

var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log(string.match(regex));
// => ["12", "12", "34", "12", "34", "12", "34", "56"]

其中 /\d{2,5}?/ 表示，虽然 2 到 5 次都行，当 2 个就够的时候，就不再往下尝试了

通过在量词后面加个问号就能实现惰性匹配，因此所有惰性匹配情形如下:

惰性量词	贪婪量词
{m,n}?	{m,n}
{m,}?	{m,}
??	?
+?	+
*?	*

对惰性匹配的记忆方式是:量词后面加个问号，问一问你知足了吗，你很贪婪吗?

3. 第三章正则表达式括号的作用

不管哪门语言中都有括号。正则表达式也是一门语言，而括号的存在使这门语言更为强大。
对括号的使用是否得心应手，是衡量对正则的掌握水平的一个侧面标准。
括号的作用，其实三言两语就能说明白，括号提供了分组，便于我们引用它。
引用某个分组，会有两种情形:在 JavaScript 里引用它，在正则表达式里引用它。
本章内容虽相对简单，但我也要写长点。

3.1. 分组和分支结构

这二者是括号最直觉的作用，也是最原始的功能，强调括号内的正则是一个整体，即提供子表达式。

3.1.1. 分组

我们知道 /a+/ 匹配连续出现的 "a"，而要匹配连续出现的 "ab" 时，需要使用 /(ab)+/。
其中括号是提供分组功能，使量词 + 作用于 "ab" 这个整体，测试如下:

var regex = /(ab)+/g;
var string = "ababa abbb ababab"; 
console.log( string.match(regex) ); // => ["abab", "ab", "ababab"]

3.1.2. 分支结构

而在多选分支结构 (p1|p2) 中，此处括号的作用也是不言而喻的，提供了分支表达式的所有可能。
比如，要匹配如下的字符串:

I love JavaScript
I love Regular Expression

可以使用正则:

var regex = /^I love (JavaScript|Regular Expression)$/; 
console.log( regex.test("I love JavaScript") ); // => true
console.log( regex.test("I love Regular Expression") ); // => true

如果去掉正则中的括号，即:
/^I love JavaScript|Regular Expression$/，
匹配字符串是 "I love JavaScript" 和 "Regular Expression"，当然这不是我们想要的。

3.2. 分组引用

这是括号一个重要的作用，有了它，我们就可以进行数据提取，以及更强大的替换操作。
而要使用它带来的好处，必须配合使用实现环境的 API。以日期为例。假设格式是 yyyy-mm-dd 的，我们可以先写一个简单的正则:

var regex = /\d{4}-\d{2}-\d{2}/;

其可视化形式是: 在这里插入图片描述

然后再修改成括号版的:

var regex = /(\d{4})-(\d{2})-(\d{2})/;

其可视化形式是:
在这里插入图片描述

对比这两个可视化图片，我们发现，与前者相比，后者多了分组编号，如 Group #1。
其实正则引擎也是这么做的，在匹配过程中，给每一个分组都开辟一个空间，用来存储每一个分组匹配到的
数据。
既然分组可以捕获数据，那么我们就可以使用它们。

3.2.1. 提取数据

比如提取出年、月、日，可以这么做:

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
console.log( string.match(regex) );
// => ["2017-06-12", "2017", "06", "12", index: 0, input: "2017-06-12"]

match 返回的一个数组，第一个元素是整体匹配结果，然后是各个分组(括号里)匹配的内容，然后是匹配下标，最后是输入的文本。另外，正则表达式是否有修饰符 g，match
返回的数组格式是不一样的。

另外也可以使用正则实例对象的 exec 方法:

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
console.log( regex.exec(string) );
// => ["2017-06-12", "2017", "06", "12", index: 0, input: "2017-06-12"]

同时，也可以使用构造函数的全局属性 $1 至 $9 来获取:

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
regex.test(string); // 正则操作即可，例如 //regex.exec(string); //string.match(regex);
console.log(RegExp.$1); // "2017" 
console.log(RegExp.$2); // "06" 
console.log(RegExp.$3); // "12"

3.2.2. 替换

比如，想把 yyyy-mm-dd 格式，替换成 mm/dd/yyyy 怎么做?

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, "$2/$3/$1"); 
console.log(result);
// => "06/12/2017"

其中 replace 中的，第二个参数里用 $1、$2、$3 指代相应的分组。等价于如下的形式:

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, function () {
return RegExp.$2 + "/" + RegExp.$3 + "/" + RegExp.$1; });
console.log(result);
// => "06/12/2017"

也等价于:

var regex = /(\d{4})-(\d{2})-(\d{2})/;
var string = "2017-06-12";
var result = string.replace(regex, function (match, year, month, day) {
      return month + "/" + day + "/" + year;
  });
console.log(result);
// => "06/12/2017"

3.3. 反向引用

除了使用相应 API 来引用分组，也可以在正则本身里引用分组。但只能引用之前出现的分组，即反向引用。还是以日期为例。
比如要写一个正则支持匹配如下三种格式:

2016-06-12
2016/06/12
2016.06.12

最先可能想到的正则是:


var regex = /\d{4}(-|\/|\.)\d{2}(-|\/|\.)\d{2}/; var string1 = "2017-06-12";
var string2 = "2017/06/12";
var string3 = "2017.06.12";
var string4 = "2016-06/12";
console.log( regex.test(string1) ); // true 
console.log( regex.test(string2) ); // true 
console.log( regex.test(string3) ); // true 
console.log( regex.test(string4) ); // true

其中 / 和 . 需要转义。虽然匹配了要求的情况，但也匹配 "2016-06/12" 这样的数据。假设我们想要求分割符前后一致怎么办?此时需要使用反向引用:

var regex = /\d{4}(-|\/|\.)\d{2}\1\d{2}/; var string1 = "2017-06-12";
var string2 = "2017/06/12";
var string3 = "2017.06.12";
var string4 = "2016-06/12";
console.log( regex.test(string1) ); // true 
console.log( regex.test(string2) ); // true 
console.log( regex.test(string3) ); // true 
console.log( regex.test(string4) ); // false

其可视化形式是:
在这里插入图片描述
注意里面的 \1，表示的引用之前的那个分组 (-|\/|\.)。不管它匹配到什么(比如 -)，\1 都匹配那个同样的具体某个字符。

我们知道了 \1 的含义后，那么 \2 和 \3 的概念也就理解了，即分别指代第二个和第三个分组。

看到这里，此时，恐怕你会有几个问题。

3.3.1. 括号嵌套怎么办?

以左括号(开括号)为准。比如:

var regex = /^((\d)(\d(\d)))\1\2\3\4$/; var string = "1231231233";
console.log( regex.test(string) ); // true 
console.log( RegExp.$1 ); // 123 
console.log( RegExp.$2 ); // 1 
console.log( RegExp.$3 ); // 23 
console.log( RegExp.$4 ); // 3

我们可以看看这个正则匹配模式:

第一个字符是数字，比如说 “1”，
第二个字符是数字，比如说 “2”，
第三个字符是数字，比如说 “3”，
接下来的是 \1，是第一个分组内容，那么看第一个开括号对应的分组是什么，是 “123”，
接下来的是 \2，找到第2个开括号，对应的分组，匹配的内容是 “1”，
接下来的是 \3，找到第3个开括号，对应的分组，匹配的内容是 “23”，
最后的是 \4，找到第3个开括号，对应的分组，匹配的内容是 “3”。

此正则的可视化形式是:
在这里插入图片描述

3.3.2. \10 表示什么呢?

另外一个疑问可能是，即 \10 是表示第 10 个分组，还是 \1 和 0 呢?
答案是前者，虽然一个正则里出现 \10 比较罕见。测试如下:

var regex = /(1)(2)(3)(4)(5)(6)(7)(8)(9)(#) \10+/; 
var string = "123456789# ######"
console.log( regex.test(string) );
// => true

如果真要匹配 \1 和 0 的话，请使用 (?:\1)0 或者 \1(?:0)。

3.3.3. 引用不存在的分组会怎样?

因为反向引用，是引用前面的分组，但我们在正则里引用了不存在的分组时，此时正则不会报错，只是匹配反向引用的字符本身。例如 \2，就匹配 "\2"。注意 "\2" 表示对 "2" 进行了转义。

var regex = /\1\2\3\4\5\6\7\8\9/;
console.log( regex.test("\1\2\3\4\5\6\7\8\9") ); 
console.log( "\1\2\3\4\5\6\7\8\9".split("") );

Chrome 浏览器打印的结果(不同的浏览器和版本，打印的结果可能不一样):
在这里插入图片描述

3.3.4. 分组后面有量词会怎样?

分组后面有量词的话，分组最终捕获到的数据是最后一次的匹配。比如如下的测试案例:

 var regex = /(\d)+/;
var string = "12345";
console.log( string.match(regex) );
// => ["12345", "5", index: 0, input: "12345"]

从上面看出，分组 (\d) 捕获的数据是 "5"。
同理对于反向引用，也是这样的。测试如下:

var regex = /(\d)+ \1/;
console.log( regex.test("12345 1") ); // => false
console.log( regex.test("12345 5") ); // => true

3.4. 非捕获括号

之前文中出现的括号，都会捕获它们匹配到的数据，以便后续引用，因此也称它们是捕获型分组和捕获型分
支。
如果只想要括号最原始的功能，但不会引用它，即，既不在 API 里引用，也不在正则里反向引用。
此时可以使用非捕获括号 (?:p) 和 (?:p1|p2|p3)，例如本章第一个例子可以修改为:

var regex = /(?:ab)+/g;
var string = "ababa abbb ababab"; 
console.log( string.match(regex) ); // => ["abab", "ab", "ababab"]

同理，第二例子可以修改为:

var regex = /^I love (?:JavaScript|Regular Expression)$/; console.log( regex.test("I love JavaScript") ); // => true
console.log( regex.test("I love Regular Expression") ); // => true

7. 第七章正则表达式编程

7.2.7. replace 是很强大的
《JavaScript 权威指南》认为 exec 是这 6 个 API 中最强大的，而我始终认为 replace 才是最强大的。
因为它也能拿到该拿到的信息，然后可以假借替换之名，做些其他事情。
总体来说 replace 有两种使用形式，这是因为它的第二个参数，可以是字符串，也可以是函数。
当第二个参数是字符串时，如下的字符有特殊的含义:

属性	描述
$1,$2,…,$99	匹配第 1-99 个分组里捕获的文本
$&	匹配到的子串文本
$`	匹配到的子串的左边文本
$’	匹配到的子串的右边文本
$$	美元符号

例如，把 "2,3,5"，变成 "5=2+3":

var result = "2,3,5".replace(/(\d+),(\d+),(\d+)/, "$3=$1+$2"); console.log(result);
// => "5=2+3"

又例如，把 "2,3,5"，变成 "222,333,555":

var result = "2,3,5".replace(/(\d+)/g, "$&$&$&"); console.log(result);
// => "222,333,555"

再例如，把 "2+3=5"，变成 "2+3=2+3=5=5":

var result = "2+3=5".replace(/=/, "$&$`$&$'$&"); 
console.log(result);
// => "2+3=2+3=5=5"

我们对最后这个进行一下说明。要把 "2+3=5"，变成 "2+3=2+3=5=5"，其实就是想办法把 = 替换成
=2+3=5=，其中，$& 匹配的是 =， $匹配的是 2+3，$' 匹配的是 5。因此使用"$&$`$&$'$&"便达成了目的。

当第二个参数是函数时，我们需要注意该回调函数的参数具体是什么:

"1234 2345 3456".replace(/(\d)\d{2}(\d)/g, function (match, $1, $2, index, input) { 
	console.log([match, $1, $2, index, input]);
});
  // => ["1234", "1", "4", 0, "1234 2345 3456"]
  // => ["2345", "2", "5", 5, "1234 2345 3456"]
  // => ["3456", "3", "6", 10, "1234 2345 3456"]

此时我们可以看到 replace 拿到的信息，并不比 exec 少。

7.2.8. 使用构造函数需要注意的问题

一般不推荐使用构造函数生成正则，而应该优先使用字面量。因为用构造函数会多写很多 \。

var string = "2017-06-27 2017.06.27 2017/06/27"; var regex = /\d{4}(-|\.|\/)\d{2}\1\d{2}/g; 
console.log( string.match(regex) );
// => ["2017-06-27", "2017.06.27", "2017/06/27"]
regex = new RegExp("\\d{4}(-|\\.|\\/)\\d{2}\\1\\d{2}", "g"); 
console.log( string.match(regex) );
// => ["2017-06-27", "2017.06.27", "2017/06/27"]

7.2.9. 修饰符

ES5 中修饰符，共 3 个:

修饰符	描述
`g`	全局匹配，即找到所有匹配的，单词是 global。
`i`	忽略字母大小写，单词是 ingoreCase。
`m`	多行匹配，即是遇到换行后不停止匹配，直到结束。单词是 multiline。

当然正则对象也有相应的只读属性:

var regex = /\w/img; console.log( regex.global ); console.log( regex.ignoreCase ); console.log( regex.multiline ); // => true
// => true
// => true

web_blog

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式总结

1.1. 两种模糊匹配如果正则只有精确匹配是没多大意义的，比如 /hello/，也只能匹配字符串中的 "hello" 这个子串。var regex = /hello/;console.log( regex.test("hello") ); // => true正则表达式之所以强大，是因为其能实现模糊匹配。而模糊匹配，有两个方向上的“模糊”:横向模糊和纵向模糊。1.1.1. 横向模糊匹配横向模糊指的是，一个正则可匹配的字符串的长度不是固定的，可以是多种情况的。其实现的方式是使用量词。譬
复制链接

扫一扫