java正则表达式去除xml标签之间的空格_这个教程,真的让我学会了正则表达式

这是一篇翻译文章。我学过很多次正则表达式,总是学了忘,忘了学,一到用的时候还是只能靠搜索引擎。
这回看到这个正则教程,感觉非常惊喜。尝试翻译了一遍,译得不好,大家可以看原文,很容易理解。
原文地址: https:// refrf.shreyasminocha.me /

1 介绍

正则表达式允许定义一种模式,并通过这种模式针对字符串执行对应的操作。与模式匹配的子字符串称为“匹配”。

正则表达式是定义搜索模式的一串字符。

正则表达式主要用在如下场景:

  • 输入验证
  • 查找替换操作
  • 高级字符串操作
  • 文件搜索或重命名
  • 白名单和黑名单

正则表达式不太适合用在这些场景:

  • XML 或 HTML 解析
  • 完全匹配的日期

有许多实现正则匹配的引擎,每种都有自己的特性。这本书将避免讨论(不同引擎之间的)特性差异,而是只讨论在大多数情况下不同引擎都共有的特征。

整本书中的示例使用JavaScript。因此,这本书可能会稍微偏向 JavaScript 的正则引擎。

2 基础

正则表达式通常格式化为 /<rules>/<flags>,通常为了简洁而省略后面的 /<flags>。关于 flag 我们将在下一章详细讨论。

让我们从/p/g 这个正则表达式开始。现在,请将 /g flag 视为固定不变的。

  • /p/g

6ca334cf7b0456b4ad2e52d3efb8f60e.png

如我们所见,/p/g 匹配所有小写的 p 字符。

注意
默认情况下,正则表达式区分大小写。

在输入字符串中找到的正则表达式模式的实例称为“匹配”。

  • /pp/g

690c55a89f8267771061fbe117856114.png

3 字符组

可以从一组字符中匹配一个字符。

  • /[aeiou]/g

82e8a857d756ea7e7f440e481d021559.png

[aeiou]/g 匹配输入字符串中的所有元音。

下面是另一个例子:

  • /p[aeiou]t/g

c4a7330b108baf870962bb90a3de1d07.png

我们匹配一个 p,后跟一个元音,然后是一个 t。

有一个更直观的快捷方式,可以在一个连续的范围内匹配一个字符。

  • /[a-z]/g

a8585079b4db60ce93ca8e88ea4125e0.png
警告
表达式 /[a-z]/g 只匹配一个字符。在上面的示例中,每个字符都有一个单独的匹配项。不是整个字符串匹配。

我们也可以在正则表达式中组合范围和单个字符。

  • /[A-Za-z0-9_-]/g

ad765eccbd224132c07652b339946ce0.png

我们的正则表达式 /[A-Za-z0-9_-]/g 匹配一个字符,该字符必须(至少)是以下字符之一:

  • A-Z
  • a-z
  • 0-9
  • _ 或者 -

我们也可以“否定”这些规则:

  • /[^aeiou]/g

35aef9bb4935e2940ebb5304c51fd334.png

/[aeiou]/g/[^aeiou]/g 之间的唯一区别是 ^ 紧跟在左括号之后。其目的是"否定"括号中定义的规则。它表示的意思是:

匹配任何不属于a、e、i、o和 u 的字符

3.1 例子

非法的用户名字符

  • /[^a-zA-Z_0-9-]/g

3658c55ca618309841d44c3379e669a8.png

指定字符

/[A-HJ-NP-Za-kmnp-z2-9]/g

138d405adaeba9dac4b5e42305706b1a.png

4 字符转义

字符转义是对某些通用字符类的简略表达方式。

4.1 数字字符 d

转义符 d 表示匹配数字字符 0-9。等同于 [0-9]

  • /d/g (这里请仔细看)

93f130076d9daa474592eceb15b73d67.png
  • /dd/g

927dd94c313722b03a8d547fcd646639.png

Dd 的反面,相当于[^0-9]

  • /D/g

614b22a0310958abf8aa0be39143178c.png

4.2 单词字符 w

转义符 w 匹配单词字符。包括:

  • 小写字母 a-z
  • 大写字母 A-Z
  • 数字 0-9
  • 下划线 _

等价于 [a-zA-Z0-9_]

  • /w/g

a956f7dc0b10fd59257ada2be5639df0.png
  • /W/g

9fcad8a098e0d27c879e8ea98adb17cc.png

4.3 空白字符 s

转义符 s匹配空白字符。具体匹配的字符集取决于正则表达式引擎,但大多数至少包括:

  • 空格
  • tab 制表符 t
  • 回车 r
  • 换行符 n
  • 换页 f

其他还可能包括垂直制表符(v)。Unicode自识别引擎通常匹配分隔符类别中的所有字符。然而,技术细节通常并不重要。

  • /s/g

90412a12140ac321ab0005c27697f9ca.png
  • /S/g (大写 s)

c0e6bb3c0cbcf8e87e3316e761238974.png

4.4 任意字符 .

虽然不是典型的字符转义。. 可以匹配任意1个字符。(除换行符 n 以外,通过 dotall 修饰符,也可以匹配换行符 n)

  • /./g

b09e6b32d18fc811ff674c521d13d44b.png

5 转义

在正则表达式中,有些字符有特殊的含义,我们将在这一章中进行探讨:

  • |
  • {,}
  • (,)
  • [,]
  • ^, $
  • +, *, ?
  • . 只在字符类中的字面量。
  • - : 有时是字符类中的特殊字符。
当我们想通过字面意思匹配这些字符时,我们可以再这些字符前面加 “转义”它们。
  • /(paren)/g

777ee93a2bfff4a41896d4f88b8bc5f5.png
  • /(paren)/g

5668a8278adba07b29559efc9e2842da.png
  • /example.com/g

1da63e4e6e15a97ff474dc4dab3018d8.png
  • /example.com/g

8b92f2109336c508b73632bb97d72212.png
  • /A+/g

d918d4a84d29d27be63423fac00e2f0d.png
  • /A+/g

c4a139645d06ab06228a63598dcca2b7.png
  • /worth $5/g

5290e6827acdad5109f83a92d9a0841b.png
  • /worth $5/g

cf5671bccaa1819b3f5f809acefd5d4b.png

5.1 例子

JavaScript 内联注释

  • ///.*

0f425346747c85e2641b9092eae46d02.png

星号包围的子串

  • /*[^*]**

8ffbfee17b031d620a1d747928d1d6a0.png

第一个和最后一个星号是字面上的,所有他们要用 * 转义。字符集里面的星号不需要被转义,但为了清楚起见,我还是转义了它。紧跟在字符集后面的星号表示字符集的重复,我们将在后面的章节中对此进行探讨。

6 组

顾名思义,组是用来“组合”正则表达式的组件的。这些组可用于:

  • 提取匹配的子集
  • 重复分组任意次数
  • 参考先前匹配的子字符串
  • 增强可读性
  • 允许复杂的替换

这一章我们先学组如何工作,之后的章节还会有更多例子。

6.1 捕获组

捕获组用(…)表示。下面是一个解释性的例子:

  • /a(bcd)e/g

633595224631462a35818c2fa191051a.png

捕获组允许提取部分匹配项。

  • /{([^{}]*)}/g

367446eb087af85668a882332ac89564.png

通过语言的正则函数,您将能够提取括号之间匹配的文本。

捕获组还可以用于对正则表达式进行部分分组,以便于重复。虽然我们将在接下来的章节中详细介绍重复,但这里有一个示例演示了组的实用性。

  • /a(bcd)+e/g

e13757d6c69f086c876573e7326f2e66.png

其他时候,它们用于对正则表达式的逻辑相似部分进行分组,以提高可读性。

  • /(dddd)-W(dd)/g

d5ba64a4ff1707ee77e09c957726e64b.png

6.2 回溯

回溯允许引用之前捕获的子字符串。

匹配第一组可以使用 1,匹配第二组可以使用 2,依此类推…

  • /([abc])×1×1/g

77289f8fecafedbbc98d6255f60f5be4.png

不能使用回溯来减少正则表达式中的重复。它们指的是组的匹配,而不是模式。

  • /[abc][abc][abc]/g

86c55875d2ed5deeb1d2274370ba56c2.png
  • /[abc]11/g

d3e6973bc5e858ad38864982a789ebd4.png

下面是一个演示常见用例的示例:

  • /w+([,|])w+1w+/g

bc61bc45e557083bdff355eab40e4827.png

这不能通过重复的字符类来实现。

  • /w+[,|]w+[,|]w+/g

81d949c4f2e6d367e0ec6749c059830a.png

6.3 非捕获组

非捕获组与捕获组非常相似,只是它们不创建“捕获”。而是采取形式 (?: ...)

非捕获组通常与捕获组一起使用。也许您正在尝试使用捕获组提取匹配的某些部分。而你可能希望使用一个组而不扰乱捕获顺序,这时候你应该使用非捕获组。

6.4 例子

查询字符串参数

  • /^?(w+)=(w+)(?:&(w+)=(w+))*$/g

86420356489e7228598e9f86fc353adc.png

我们单独匹配第一组键值对,因为这可以让我么使用 & 分隔符, 作为重复组的一部分。

(基础的) HTML 标签

根据经验,不要使用正则表达式来匹配 XML/HTML。不过,我还是提供相关的一个例子:

  • /<([a-z]+)+>(.*)</1>/gi

607675dd374229bb2cc0facaf6743bd1.png

姓名

查找:b(w+) (w+)b

替换:

1
在替换操作,经常使用
2;捕获使用
1, 2

替换之前

John Doe
Jane Doe
Sven Svensson
Janez Novak
Janez Kranjski
Tim Joe

替换之后

Doe, John
Doe, Jane
Svensson, Sven
Novak, Janez
Kranjski, Janez
Joe, Tim

回溯和复数

查找: bword(s?)b

替换: phrase$1

替换之前

This is a paragraph with some words.

Some instances of the word "word" are in their plural form: "words".

Yet, some are in their singular form: "word".

替换之后

This is a paragraph with some phrases.

Some instances of the phrase "phrase" are in their plural form: "phrases".

Yet, some are in their singular form: "phrase".

7 重复

重复是一个强大而普遍的正则表达式特性。在正则表达式中有几种表示重复的方法。

7.1 可选项

我们可以使用 ?将某一部分设置成可选的(0或者1次)。

  • /a?/g

6ed8174fd76004bc7218ba4b1bd098a1.png

另一个例子:

  • /https?/g

ddaa671405b5be2a1d6189d639200d2a.png

我们还可以让捕获组和非捕获组编程可选的。

  • /url: (www.)?example.com/g

49ab133d83e0a413f5b5b0417c85e3cf.png

7.2 零次或者多次

如果我们希望匹配零个或多个标记,可以用 * 作为后缀。

  • /a*/g

a79e2acc4d0ffacaa0af34dbece0d06e.png

我们的正则表达式甚至匹配一个空字符串。

7.3 一次或者多次

如果我们希望匹配 1 个或多个标记,可以用 + 作为后缀。

  • /a+/g

93eb43d758ee235d0fef95f1cf8621dc.png

7.4 精确的 x 次

如果我们希望匹配特定的标记正好x次,我们可以添加{x}后缀。这在功能上等同于复制粘贴该标记 x 次。

  • /a{3}/g

c1b9a628cc195b8e6a41a76e1fde9db6.png

下面是匹配大写的六个字符的十六进制颜色代码的例子。

  • /#[0-9A-F]{6}/g

72d9e79c79dd8d2b3c56ff8d29d63e1c.png

这里,标记 {6} 应用于字符集 [0-9A-F]。

7.5 最小次和最大次之间

如果我们希望在最小次和最大次之间匹配一个特定标记,可以在这个标记后添加 {min,max}

  • /a{2,4}/g

11cd0c5de480f2ac8e44f375aee53e2d.png
警告 {min,max} 中逗号后面不要有空格。

7.6 最少 x 次

如果我们希望匹配一个特定的标记最少 x 次,可以在标记后添加 {x,}。 和 {min, max} 类似,只是没有上限了。

  • /a{2,}/g

7f21c8b2742def574812344eb6b3b23c.png

7.7 贪婪模式的注意事项

正则表达式默认使用贪婪模式。在贪婪模式下,会尽可能多的匹配符合要求的字符。

  • /a*/g

6984d1ef728f95b2890c7ec608c29474.png
  • /".*"/g

f4a5e7f231263e64e0b47befd3ea211e.png

在**重复操作符(?,*,+,...)**后面添加 ,可以让匹配变“懒”。

  • /".*?"/g

4987b7db68b975264aa2cb9151a157ff.png

在这里,这也可以通过使用[^"]代替。(这是最好的做法)。

  • /"[^"]*"/g

362226757a7e3c6dca57a1f4df438b28.png
懒惰,意味着只要条件满足,就立即停止;但贪婪意味着只有条件不再满足才停止。
-Andrew S on StackOverflow
  • /<.+>/g

a62899b26c2094a2bd230b31b0b57b19.png
  • /<.+?>/g

67ac6392f7f4ab5fc920b82573fe9ede.png

7.8 例子

比特币地址

  • /([13][a-km-zA-HJ-NP-Z0-9]{26,33})/g (思考: {26,33}?呢)

20d48f976f424c8c8438e27593e54bee.png

Youtube 视频

  • /(?:https?://)?(?:www.)?youtube.com/watch?.*?v=([^&s]+).*/gm

bc830d635af9b7e574152cb643d11062.png

我们可以使用锚点调整表达式不让它匹配最后一个不正确的链接,之后我们会接触到。

8 交替

交替允许匹配几个短语中的一个。这比仅限于单个字符的字符组更加强大。

使用管道符号 | 把多个短语之间分开

  • /foo|bar|baz/g

221a56cf0d17c6344065ec59f6d76aed.png
匹配 foo, bar, 和 baz 中的一个。

如果正则中只有一部分需要“交替”,可以使用组进行包裹,捕获组和非捕获组都可以。

  • /Try (foo|bar|baz)/g

310d8577c16664fa31894a46384bb900.png
Try 后面跟着 foo, bar, 和 baz 中的一个。

匹配 100-250 中间的数字:

  • /1dd|2[0-4]d|250/g

ea749f943271cf6811af866628fe30bd.png

这个可以使用 Regex Numeric Range Generator 工具生成。

例子

十六进制颜色

让我们改进一下之前十六进制颜色匹配的例子。

  • /#[0-9A-F]{6}|[0-9A-F]{3}

3e10e83870685520897901a004d33de0.png

[0-9A-F]{6} 要放在[0-9A-F]{3}的前面,这一点非常重要。否则:

  • /#([0-9A-F]{3}|[0-9A-F]{6})/g

4d65a083a21fde856d4105ea310f8c7f.png
小提示
正则表达式引擎是从左边到右边的尝试交替的。

罗马数字

  • /^M{0,4}(CM|CD|D?C{0,3})(XC|XL|L?X{0,3})(IX|IV|V?I{0,3})$/g

e92fb956af462809b36f27a435193872.png

9 修饰符

修饰符允许我们把正则表达式分成不同的 "模式"。

修饰符是 /pattern/ 后面的部分。

不同引擎支持不同的修饰符。在这里我们只讨论最常见修饰符。

9.1 全局修饰符(g)

到现在为止,所有的例子都设置了全局修饰符。如果不启用全局修饰符,正则表达式匹配第一个以后将不再匹配其他任何字符。

  • /[aeiou]/g

64d489cc259b5c925b079b47b3c2fd7a.png
  • /[aeiou]/

0e510775165dffd8d6957a57365bb0a9.png

9.2 不区分大小写修饰符(i)

顾名思义,启用这个修饰符会使正则在匹配时不区分大小写。

  • /#[0-9A-F]{6}/i

6c090697ae345902fda41789bd4f16b7.png
  • /#[0-9A-F]{6}/

0f836c40b9e72397977e0340e97cbc8f.png
  • /#[0-9A-Fa-f]{6}/

f865b305ca18f6cabdd96ea56cd359e2.png

9.3 多行模式修饰符(m)

有限支持
在 Ruby 中,m 修饰符是执行其他的函数。

多行修饰符与正在在处理包含换行符的“多行”字符串时对锚点的处理有关。默认情况下,/^foo$/只匹配 “foo”。

我们可能希望它在多行字符串中的一行也能匹配 foo。

我们拿 "barnfoonbaz" 举例子:

bar
foo
baz

如果没有 m 修饰符,上面的字符串会被当做单行 barnfoonbaz, 正则表达式 ^foo$ 匹配不到任何字符。

如果有 m 修饰符,上面的字符串会被当做 3 行。 ^foo$ 可以匹配到中间那一行。

9.4 Dot-all修饰符 (s)

有限支持
ES2018 之前的 JavaScript 不支持这个修饰符。 Ruby 也不支持这个修饰,而是用 m 表示。

.通常匹配除换行符以外的任何字符。使用dot all修饰符后,它也可以匹配换行符。

10 锚点

锚点本身不匹配任何东西。但是,他们会限制匹配出现的位置。

你可以把锚点当做是 "不可见的字符"。

10.1 行首 ^

在正则开始时插入^ 号,使正则其余部分必须从字符串开始的地方匹配。你可以把它当成始终要在字符串开头匹配一个不可见的字符。

  • /^p/g

3de56e7e10d4fa469fa00f888b52ee34.png

10.2 行尾

在正则结尾时插入$ 号, 类似于行首符。你可以把它当成始终要在字符串结尾匹配一个不可见的字符。

  • /p$/g

c8de80ae1774bfcd2c25a557b920f15f.png

^$锚点经常一起使用,以确保正则和字符串整个匹配,而不仅仅是部分匹配。

  • /^p$/g

273eb0cab9f5d2d78de3a18a32047f47.png

让我们回顾一下重复中的一个例子,并在正则的末尾添加两个锚点。

  • /^https?$/g

093259c0bf4bbea209295a5f8c03070d.png

如果没有这 2 个锚点, http/2shttp 也会被匹配。

10.3 字边界 b

字边界是一个字符和非词字符之间的位置。

字边界锚点 b,匹配字符和非词字符之间存在的假想不可见字符。

  • /bp/g

d509761945f4b7e509129765b3d5331f.png
提示
字符包括 a-z, A-Z, 0-9, 和 _.
  • /bpb/g

ae0a82ad9815cd9a210e93849e6a1f9c.png
  • /bcatb/g

41ccb72f77a71fdc39c25052f9e1181d.png

还有一个非字边界锚 B

顾名思义,它匹配除字边界之外的所有内容。

  • /Bp/g

9bb86d82179a894d74e3866d2935836f.png
  • /BpB/g

6fdf84e6982e7a5401d76e217841b2f7.png
小提示 ^…$b…b是常见的模式,您几乎总是需要这 2 个防止意外匹配。

10.4 例子

尾部空格

  • /s+$/gm

c9a01966fbd779ebeaa14d277b17c001.png

markdown 标题

  • /^## /gm

0ef5a3fe7b0610cdabf4df6f8214d39e.png

没有锚点:

  • /## /gm

5527754d633eb1911735109c3bf92a66.png

11 零宽断言(lookaround)

零宽断言可用于验证条件,而不匹配任何文本。

你只能看,不能动。
  • 先行断言(lookhead)
    • 正向(?=…)
    • 负向(?!…)
  • 先行断言(lookbehind)
    • 正向(?<=…)
    • 负向(?<!…)

11.1 先行断言(lookhead)

正向(positive)

  • /_(?=[aeiou])/g

e19bd277edc8ea701a508f9be00c5f94.png

注意后面的字符是如何不匹配的。可以通过正面前看得到证实。

  • /(.+)_(?=[aeiou])(?=1)/g

d92358b3690cdb4f421aa188a32715f8.png

正则引擎在 _ 使用了 (?=[aeiou])(?=1) 进行检查。

  • /(?=.*#).*/g

95e031343b4e833dd7e255cc377bed06.png

负向(Negative)

  • /_(?![aeiou])/g

c9c65fbc7996f7a96533b2fb25230947.png
  • /^(?!.*#).*$/g

3037b7ce5e69104dda476539202450f8.png

如果没有锚点,将匹配每个示例中没有#的部分。

负向的先行断言常常用于防止匹配特定短语。

  • /foo(?!bar)/g

5ed3db9f8014a0d18126e8db71fadc18.png
  • /---(?:(?!---).)*---/g

f22ae514879b68cc37a9d06b19e8e11b.png

11.2 例子

密码验证

/^(?=.*d)(?=.*[a-z])(?=.*[A-Z])(?=.*[a-zA-Z]).{8,}$/

bef1f3d416e1b021d957bfdfd45b005e.png

零宽断言可用于验证多个条件。

带引号的字符串

  • /(['"])(?:(?!1).)*1/g

b6118a61bb8394cb05819d84cc8e7ca0.png

如果没有先行断言,我们最多只能做到这样:

  • /(['"])[^'"]*1/g

378d6383e6e3ca70d6928d226cc42937.png

12 进阶例子

JavaScript 注释

  • //*[sS]*?*/|//.*/g

29ec0637c8ae5c842ecee04c881a4fe4.png

[sS]是一种匹配任何字符(包括换行符)的技巧。我们避免使用dot-all 修饰符,因为我们需要使用. 表示单行注释。

24小时时间

  • /^([01]?[0-9]|2[0-3]):[0-5][0-9](:[0-5][0-9])?$/g

8d00e55e1205d48759d58ce8fedb08d1.png

IP 地址

  • /b(?:(?:2(?:[0-4][0-9]|5[0-5])|[0-1]?[0-9]?[0-9]).){3}(?:(?:2([0-4][0-9]|5[0-5])|[0-1]?[0-9]?[0-9]))b/g

41e558dcf0e578ac7833c7ef32740373.png

元标签

  • /<Example source="(.*?)" flags="(.*?)">/gm

57b2a66da73034206df40e36149945c3.png

替换: <Example regex={/$1/$2}>

浮点数

  • 可选符号
  • 可选整数部分
  • 可选小数部分
  • 可选指数部分
  • /^([+-]?(?=.d|d)(?:d+)?(?:.?d*))(?:[eE]([+-]?d+))?$/g

35fe7db20bbf7db6cb90db530bd2fad9.png

正向的先行断言 (?=.d|d) 确保不会匹配 ..

HSL颜色

从0到360的整数

  • /^0*(?:360|3[0-5]d|[12]?d?d)$/g

ef8e0ed5debcc51f84f97da459039393.png

百分比

  • /^(?:100(?:.0+)?|d?d(?:.d+)?)%$/g

f710b1c5c274c085d2c318d1f4893105.png

HSL 和 百分比

  • /^hsl(s*0*(?:360|3[0-5]d|[12]?d?d)s*(?:,s*0*(?:100(?:.0+)?|d?d(?:.d+)?)%s*){2})$/gi

fd09d0d067d03b8cd41eb4120bd457b9.png

13 下一步

如果你像进一步学习正则表达式及其工作原理:

  • awesome-regex
  • ef="https://stackoverflow.com/tags/regex/info">regex tag on StackOverflow
  • StackOverflow RegEx FAQ
  • r/regex
  • RexEgg
  • Regular-Expressions.info
  • Regex Crossword
  • Regex Golf

谢谢阅读!这个教程,真的让我学会了正则表达式

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值