这是一本关于正则表达式的实验性书籍。与我在学习过程中发现的大多数regex资源相比,它主要是基于实例的可视化的。我还尝试选择一些突出一些常见陷阱的测试用例。我想你的时间是值得的。
本书的目标读者是正则表达式初学者。 有一定的编程经验。 它不涉及诸如引擎回溯和递归正则表达式等高级正则表达式概念,至少目前不涉及。
开源地址(英文)
前言
正则表达式(“ regexes”)允许定义模式并针对字符串执行它。 与模式匹配的子字符串称为“匹配项”。
A regular expression is a sequence of characters that define a search pattern.
-
正则表达式在以下方面发现了实用性:
- 输入验证
- 查找替换操作
- 高级字符串操作
- 文件搜索或重命名
- 白名单和黑名单
- … 同时,正则表达式不适用于其他类型的问题:
- 解析 XML 或 HTML
- 完全吻合的日期
- …
有几种正则表达式实现(正则表达式引擎),每个引擎都有自己的特性。本书将避免讨论这些特性之间的差异,而只讨论在大多数情况下跨引擎常见的特性。
本书中的示例块在底层使用JavaScript。因此,本书可能稍微偏向于JavaScript的正则引擎。
基本知识
正则表达式的格式通常为/ <rules> / <flags>
。 为了简洁,人们通常会省略斜杠和标识。 在下一章中,我们将详细介绍标志。
让我们从正则表达式/ p / g
开始。 现在,请把g标志视为理所当然。
注意:正则表达式默认是区分大小写的。
/p /g 匹配所有小写的
p 字符。
字符类
可以从一组字符中匹配一个字符。
[aeiou]/g匹配输入字符串中的所有元音。
下面是另一个实际应用的例子:
/p[aeiou]t/g
在一个连续的范围内匹配一个字符有一个直观的快捷方式:
/[a-z]/g
警告:Regex /[ a-z ]/g 只匹配一个字符。 在上面的示例中,每个字符串有几个匹配项,每个匹配项有一个字符长。不是一个长匹配
我们可以在正则表达式中组合范围和单个字符:
/[A-Za-z0-9_-]/g
我们还可以“否定”这些规则:
本章的第一个正则表达式和/[^aitou ]/g
之间的唯一区别是紧接在开括号后的 ^ 。 其目的是否定括号内定义的规则。 我们现在说的是:匹配任何不属于 a,e,i,o 和 u 的字符