这个教程,真的让我学会了正则表达式

这篇教程详细介绍了正则表达式的基础和高级概念,包括字符组、字符转义、组和回溯等,通过实例帮助读者掌握正则表达式在字符串操作中的应用。
摘要由CSDN通过智能技术生成

这个教程,真的让我学会了正则表达式

这是一篇翻译文章。我学过很多次正则表达式,总是学了忘,忘了学,一到用的时候还是只能靠搜索引擎。

这回看到这个正则教程,感觉非常惊喜。尝试翻译了一遍,译得不好,大家可以看原文,很容易理解。

原文地址:https://refrf.shreyasminocha.me/

更多内容,请关注微信号:雨哥写 python

1 介绍

正则表达式允许定义一种模式,并通过这种模式针对字符串执行对应的操作。与模式匹配的子字符串称为“匹配”。

正则表达式是定义搜索模式的一串字符。

正则表达式主要用在如下场景:

  • 输入验证
  • 查找替换操作
  • 高级字符串操作
  • 文件搜索或重命名
  • 白名单和黑名单

正则表达式不太适合用在这些场景:

  • XML 或 HTML 解析
  • 完全匹配的日期

有许多实现正则匹配的引擎,每种都有自己的特性。这本书将避免讨论(不同引擎之间的)特性差异,而是只讨论在大多数情况下不同引擎都共有的特征。

整本书中的示例使用JavaScript。因此,这本书可能会稍微偏向 JavaScript 的正则引擎。

2 基础

正则表达式通常格式化为 /<rules>/<flags>,通常为了简洁而省略后面的 /<flags>。关于 flag 我们将在下一章详细讨论。

让我们从/p/g 这个正则表达式开始。现在,请将 /g flag 视为固定不变的。

  • /p/g

如我们所见,/p/g 匹配所有小写的 p 字符。

注意

默认情况下,正则表达式区分大小写。

在输入字符串中找到的正则表达式模式的实例称为“匹配”。

  • /pp/g

3 字符组

可以从一组字符中匹配一个字符。

  • /[aeiou]/g

[aeiou]/g 匹配输入字符串中的所有元音。

下面是另一个例子:

  • /p[aeiou]t/g

我们匹配一个 p,后跟一个元音,然后是一个 t。

有一个更直观的快捷方式,可以在一个连续的范围内匹配一个字符。

  • /[a-z]/g

警告

表达式 /[a-z]/g 只匹配一个字符。在上面的示例中,每个字符都有一个单独的匹配项。不是整个字符串匹配。

我们也可以在正则表达式中组合范围和单个字符。

  • /[A-Za-z0-9_-]/g

我们的正则表达式 /[A-Za-z0-9_-]/g 匹配一个字符,该字符必须(至少)是以下字符之一:

  • A-Z
  • a-z
  • 0-9
  • _ 或者 -

我们也可以“否定”这些规则:

  • /[^aeiou]/g

/[aeiou]/g/[^aeiou]/g 之间的唯一区别是 ^ 紧跟在左括号之后。其目的是"否定"括号中定义的规则。它表示的意思是:

匹配任何不属于a、e、i、o和 u 的字符

3.1 例子

非法的用户名字符

  • /[^a-zA-Z_0-9-]/g

指定字符

/[A-HJ-NP-Za-kmnp-z2-9]/g

4 字符转义

字符转义是对某些通用字符类的简略表达方式。

4.1 数字字符 \d

转义符 \d 表示匹配数字字符 0-9。等同于 [0-9]

  • /\d/g (这里请仔细看)
regular_expression_10-fs8.png
regular_expression_10-fs8.png
  • /\d\d/g
regular_expression_11-fs8.png
regular_expression_11-fs8.png

\D\d 的反面,相当于[^0-9]

  • /\D/g
regular_expression_12-fs8.png
regular_expression_12-fs8.png
4.2 单词字符 \w

转义符 \w 匹配单词字符。包括:

  • 小写字母 a-z
  • 大写字母 A-Z
  • 数字 0-9
  • 下划线 _

等价于 [a-zA-Z0-9_]

  • /\w/g
regular_expression_13-fs8.png
regular_expression_13-fs8.png
  • /\W/g
regular_expression_14-fs8.png
regular_expression_14-fs8.png
4.3 空白字符 \s

转义符 \s匹配空白字符。具体匹配的字符集取决于正则表达式引擎,但大多数至少包括:

  • 空格
  • tab 制表符 \t
  • 回车 \r
  • 换行符 \n
  • 换页 \f

其他还可能包括垂直制表符(\v)。Unicode自识别引擎通常匹配分隔符类别中的所有字符。然而,技术细节通常并不重要。

  • /\s/g
regular_expression_15-fs8.png
regular_expression_15-fs8.png
  • /\S/g (大写 s)
regular_expression_16-fs8.png
regular_expression_16-fs8.png
4.4 任意字符 .

虽然不是典型的字符转义。. 可以匹配任意1个字符。(除换行符 \n 以外,通过 dotall 修饰符,也可以匹配换行符 \n)

  • /./g
regular_expression_17-fs8.png
regular_expression_17-fs8.png

5 转义

在正则表达式中,有些字符有特殊的含义,我们将在这一章中进行探讨:

  • |
  • {,}
  • (,)
  • [,]
  • ^, $
  • +, *, ?
  • \
  • . 只在字符类中的字面量。
  • - : 有时是字符类中的特殊字符。

当我们想通过字面意思匹配这些字符时,我们可以再这些字符前面加 \ “转义”它们。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值