Js正则表达式——引用匹配组

Javascript的正则支持组引用,即在正则式中使用已经匹配到的子串。什么意思呢?先看个问题:我要一个正则,匹配2080-02-262080.02.26这两个时间格式,怎么写呢?/^\d+[.\-]\d+[.\-]\d+$/显然是不行的,因为它也能匹配2080-02.26,2080.02-26,这时我们就可以使用正则提供的引用功能。

组引用

它的写法是\n,看起来怎么跟个换行符一样?其实n指的是已经匹配到的子串的序号,而不是字母'n',像上面那个问题可以写成/^\d+([.\-])\d+\1\d+$/,再来看看效果:

/^\d+([.\-])\d+\1\d+$/.test('2019-08-19'); // true
/^\d+([.\-])\d+\1\d+$/.test('2019.08.19'); // true
/^\d+([.\-])\d+\1\d+$/.test('2019-08.19'); // false
/^\d+([.\-])\d+\1\d+$/.test('2019.08-19'); // false

在这个正则中\1指代的就是后方刚刚匹配到的.或者-,是一个确定的字符,而非两者皆有可能,这就解决了问题。

MDN上有一个类似的例子:/(?:\d{3}|\(\d{3}\))([-\/\.])\d{3}\1\d{4}/,匹配(020)-885-6652,032/565/9656,365.356.3333这种电话号码格式,其实原理也是一样,电话号之间的分隔只能同时是./或者-

消除回溯

另外一个有用的场景是消除回溯。正则表达式在遇到无法匹配的情况时,会把已经记忆到的组重新计算,然后再匹配,如果不行就再重计算,再匹配,如此进行直到匹配完成或者无法匹配。

举个例子,有个正则表达式/(\s*\(.*?=.*?\))+$/,它可以匹配'(a=b) (c=) (e=f) (g= i)'这种字符串,对每一个匹配组,左括号前可能有任意个空字符,左右括号内采用非贪婪模式匹配到一个等号和等号左右两部分。

假设我们有一个字符串'(a=b) (a=c) (b=c) (d=f) (g=i) (h=i) (q=o) (e=0) (p=r) (s=3) (x=3) (h=e) (5=d) (m=n) (g=d) (l=k)',它可以被这个正则成功匹配,并且在毫秒级时间内完成(我在chrome devtool中把CPU速度调成了6倍减速,实际时间视设备而定):

var reg5 = /(\s*\(.*?=.*?\))+$/;
var ss = '(a=b) (a=c) (b=c) (d=f) (g=i) (h=i) (q=o) (e=0) (p=r) (s=3) (x=3) (h=e) (5=d) (m=n) (g=d) (l=k)';

console.time('reg5');
ss.match(reg5);
console.timeEnd('reg5'); // reg5: 1.642822265625ms

但是如果我们在这个字符串最后增加一个字符,让它不能匹配该正则式,再看看:

var reg5 = /(\s*\(.*?=.*?\))+$/;
var ss = '(a=b) (a=c) (b=c) (d=f) (g=i) (h=i) (q=o) (e=0) (p=r) (s=3) (x=3) (h=e) (5=d) (m=n) (g=d) (l=k)d';

console.time('reg5');
ss.match(reg5);
console.timeEnd('reg5'); // reg5: 1391.31298828125ms

这个正则耗时1391ms,如果待匹配的字符串变长,这个时间可能更长甚至直接卡死,使用中的CPU核心占用率达到100%

为什么会这样呢?来分析一下正则的回溯过程:

灾难性回溯分析
我们只分析了后三个匹配到的子串,这个回溯会一直进行到字符串开头,其中还包含了一些子回溯(青色背景的单元格),所以这个正则表达式的执行效率相当低,很容易造成卡死,这种现象叫做“灾难性回溯”(catastrophic backtracking)。

其实按照正常人的思维,这个字符串最后一位不是),而正则要求最后一位必是),显然它就不能匹配上该字符串。不管你怎么回溯,都改变不了最后一位肯定不能匹配上的事实。很明显,这里的回溯做了很多无用功,甚至引发了灾难级的重复计算。

那怎么在代码里解决这个问题呢?很多编程语言如Ruby,Java,Perl的正则都提供了一个叫做“原子组”(atomic grouping)的东西,原子组在成功匹配一次之后,就抛弃所有内存中的其他可能匹配。也就是说,它成功匹配到一次之后,不会再尝试其他可能值。比如说一个a(?>bc|b)c的正则表达式,可以匹配'abcc'但是不能匹配'abc',因为'abc'先消耗了原子组里的bc,然后发生了回溯,但是此时原子组的值就是'bc',它再也无法匹配到原子组里面的b了。

遗憾的是,Javascript的正则系统并不支持原子组,但是可以通过组引用解决类似问题。

我们把正则写成这种形式/(?=(\s*\(.*?=.*?\))+)\1$/,与组相关的正则式被写在了一个前环视中(环视是ES6新增的正则功能,不清楚的话可以看前一篇博客),然后在环视匹配后使用\1消耗掉匹配到的组

来测试一下功能,先来个正常匹配的:

var reg6 = /(?=(\s*\(.*?=.*?\))+)\1$/;
var ss = '(a=b) (a=c) (b=c) (d=f) (g=i) (h=i) (q=o) (e=0) (p=r) (s=3) (x=3) (h=e) (5=d) (m=n) (g=d) (l=k)';
console.time('reg6');
console.log(ss.match(reg6)); // [" (l=k)", " (l=k)", index: 89, ...
console.timeEnd('reg6'); // reg6: 1.5791015625ms

功能正常,可以匹配成功,匹配组对应的是' (l=k)',即最后一个匹配的子串。

再来看匹配失败的情况:

var reg6 = /(?=(\s*\(.*?=.*?\))+)\1$/;
var ss = '(a=b) (a=c) (b=c) (d=f) (g=i) (h=i) (q=o) (e=0) (p=r) (s=3) (x=3) (h=e) (5=d) (m=n) (g=d) (l=k)d';
console.time('reg6');
console.log(ss.match(reg6)); // null
console.timeEnd('reg6'); // reg6: 2.432861328125ms

匹配失败,和我们的期望吻合,而且它在毫秒级时间内就结束了计算。

来分析一下这个正则的行为:环视在扫描字符串过程中依次把符合/\s*\(.*?=.*?\)/的子串放在组中,后来的组替代先到的组,它匹配到的最后一个子串是' (l=k)',下一个字符是'd'不匹配\s*,此时\1指代的就是组中的值' (l=k)',这个正则和/ \(l=k\)$/的功能相同。最后的字符'd'不能匹配结束符$,发生回溯,但此时回溯前面的是一个确定的字符串值,而不是可变的字符序列,所以匹配就直接失败了。

其实很多回溯都是可以避免的,比如/(\d+)*a/这个正则的回溯是灾难性的,但是显然它可以简化成这样/(\d+)a/,回溯的次数就是线性的了。但是有的时候简化的方法并不明显,此时使用这种方法确实可以解决一些由于不确定匹配导致的回溯问题,但它也有两个缺点:一是把正则变得更加复杂了,二是增加了一个可能无用的匹配组(本例中就是' (l=k)'

参考资料:

[1]. js无限回溯问题
[2]. 原子组
[3]. 向前看的方法解决回溯

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
JavaScript正则表达式和Java正则表达式在语法上有一些差异,但是它们的基本概念和用法是相似的。下面是将JavaScript正则表达式转换为Java正则表达式的一些常见规则: 1. 语法差异: - JavaScript正则表达式使用斜杠(/)作为定界符,而Java正则表达式使用双引号(")作为定界符。 - JavaScript正则表达式中的特殊字符需要进行转义,而Java正则表达式中的特殊字符不需要转义。 2. 字符类: - JavaScript正则表达式中的字符类使用方括号([])表示,而Java正则表达式中使用方括号([])或者Unicode转义(\p{...})表示。 - JavaScript正则表达式中的字符类可以使用连字符(-)表示范围,而Java正则表达式中需要使用Unicode转义(\uXXXX)表示范围。 3. 量词: - JavaScript正则表达式中的量词使用花括号({})表示,而Java正则表达式中使用花括号({})或者问号(?)表示。 - JavaScript正则表达式中的贪婪量词默认是贪婪模式,而Java正则表达式中的贪婪量词需要在后面添加问号(?)来表示非贪婪模式。 4. 边界匹配: - JavaScript正则表达式中的边界匹配使用插入符号(^)和美元符号($)表示,而Java正则表达式中使用\A和\Z表示。 5. 其他差异: - JavaScript正则表达式中的捕获使用圆括号(())表示,而Java正则表达式中使用圆括号(())或者方括号([])表示。 - JavaScript正则表达式中的反向引用使用反斜杠加数字(\1、\2等)表示,而Java正则表达式中使用美元符号加数字($1、$2等)表示。 以上是一些常见的JavaScript正则表达式转换为Java正则表达式的规则。具体转换时,还需要根据具体的正则表达式进行适当的调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值