Javascript 正则05- 正则表达式的拆分

正则表达式

正则表达式是匹配模式,要么匹配字符,要么匹配位置

正则表达式的拆分

从读和写角度来校验对一个门语言的掌握程度。

如何能正确地将一大串正则拆分成 一块一块的,成为了破解 ‘天书’的关键

主要内容

  1. 结构和操作符
  2. 注意要点
  3. 案例分析

1. 结构和操作符

编程语言一般都会有操作符。只要有操作符就会产生一个问题,当一大堆操作符在一起的时候,先操作谁,后操作谁? 为了不产生歧义(冲突)需要语言本身定义好操作顺序,即运算符的优先级。

正则表达式中,操作符都体现在结构中,即由特殊字符和普通字符所代表的一个一个特殊整体。

js正则中,都有哪些结构呢?

  1. 字面量: 匹配一个具体的字符,包括需要转义的和不需要转义的。如: /a/;/\./;/1/
  2. 字符组:匹配一个字符,可以有多种可能。 如: [0-9]; \D
  3. 量词: 匹配一个字符连续出现的次数。 如: /a{1,3}/
  4. 锚点: 匹配一个位置,而不是字符。如: 6个锚字符^,$,\b,\B,(?=...),(?!...)
  5. 分组: 用括号表示一个整体。如 (ab)+ ,非捕获分组: (?:ab)+
  6. 分支: 多个子表达式,多选一。 如: ab|cd
  7. 反向引用: 引用之前出现过的匹配子串。如: \2 表示引用第二个分组

其中涉及的操作符:

  1. \
  2. (...)
  3. (?:...)
  4. (?=...)
  5. (?!...)
  6. [...]
  7. {m}
  8. {m,n}
  9. {m,}
  10. ?
  11. *
  12. +
  13. ^
  14. $
  15. 元字符
  16. 一般字符
  17. |

上面的操作符优先级从上至下,由高到低

一般记住: 分组(括号)优先级高,分支结构 优先级最低够用了

我们来分析一个正则:/ab?(c|de*)+|fg/

  1. 由于括号存在, (c|de*) 是一个整体结构
  2. 在 (c|de*) 中,注意其中的量词 * , 因此 e* 是一个整体结构
  3. 又因为分支结构 | 优先级最低,因此 c 是一个整体,而 de* 是一个整体
  4. 同理, 整个正则分成了 a、b?、(...)+、f、g 而由于分支存在,又可以分成 ab?(c|de*)+ 和 fg 这两部分

2. 注意要点

关于结构和操作符, 有以下几点强调

2.1 匹配字符串整体问题

因为要匹配整个字符串,我们经常会在正则前后加上锚字符 ^ 和 $

比如要匹配字符串是 “abc” 和 “bcd” 时候,如不小心写错, 就会写成 /^abc|bcd$/

而位置字符和字符序列优先级高于 竖杠高,匹配结构变成了了: abc开头或者 bcd 结尾

应该修改成: /^(abc|bcd)$/

分组还有个作用是 提高运算优先级

2.2 量词连缀问题

假设,匹配如下的字符串:

  1. 每个字符为 a, b, c 中任选一个 [abc]
  2. 字符串的长度是 3 的倍数 {3}

想当然的实现/^[abc]{3}+$/

上述正则是错误的,正确写法为 : /^([abc]{3})+$/, 需要使用分组来表示分组字符连续出现

2.3 元字符的转义问题

所谓的元字符, 就是正则中有特殊含义的字符

所有结构中用到的元字符如下:

  1. ^
  2. $
  3. .
  4. *
  5. +
  6. ?
  7. |
  8. \
  9. /
  10. (
  11. )
  12. {
  13. }
  14. [
  15. ]
  16. =
  17. !
  18. :
  19. -
  20. ,

当匹配上述字符本身时候,可以一律使用转义

其中,在字符串中转义符号 \ 在使用的是时候需要转义的。

是不是每个字符都需要转义呢? 否, 是否需要转义看情况

一般情况下, 会引起歧义的地方,元字符使用的时候需要转义

如: 匹配 [abc] 这个字符串, /\[abc]/

2.3.1 其余情况

Note: () 需要前后都转义的

=!:-, 等符号,只要不在特殊结构中,都是不需要转义的

^.*+?$ 只要不在字符组内,都是需要转义的

3. 案例分析

3.1 身份证

正则表达式: /^(\d{15}|\d{17}[\dxX])$/

因为 竖杠 ‘|’ 优先级最低, 所以正则被分成了两部分, \d{15}\d{17}[\dXx]

3.2 IPV4 地址

正则表达式: /^((0{0,2}\d|0?\d{2}|1\d{2}|2[0-4]\d|25[0-5])\.){3}((0{0,2}\d|0?\d{2}|1\d{2}|2[0-4]\d|25[0-5]))$/

这个正则看起来吓人,仔细观察后,得到如下结构:

((..)\.){3}(...)

上述: (...) 是一样的结构,表示一个三位数字。

下面分析: (...) 结构

(0{0,2}\d|0?\d{2}|1\d{2}|2[0-4]\d|25[0-5])

这是一个多选分支结构,分成 5 个部分:

  1. 0{0,2}\d : 匹配一位数,包括 0 补齐。 比如: 0, 09 ,009
  2. 0?\d{2}: 匹配两位数, 包括 0 补齐。也包括一位数。
  3. 1\d{2}: 匹配: 100-199
  4. 2[0-4]\d: 匹配: 200-249
  5. 25[0-5]: 匹配: 250 - 255

ipv4 案例给我启示如下:

  1. 通过分支结构来罗列各种情况,一般就可以满足 正确性
  2. 在 step2 中, 也包含了 step1 中的部分情况(也就是说有交集)
  3. 一位数,两位数以及对应补全零的情况有可以使用

小结

  1. 竖杠(分支结构)优先级最低,即最后运算
  2. 关于元字符是否转义问题, 不确定是否转义的时候,尽管去转义,总之,不会错的。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值