java正则表达式 n_我们怎样才能将^ n b ^ n与Java正则表达式匹配？-CSDN博客

本文链接：https://blog.csdn.net/weixin_34079140/article/details/114076214

答案是，不用说，是的！你肯定可以写一个Java正则表达式模式来匹配anbn。它使用正向前导进行断言，并使用一个嵌套引用进行＆＃34;计数＆＃34;。

这个答案不是立即给出模式，而是引导读者完成推导过程。随着解决方案的缓慢构建，给出了各种提示。在这方面，希望这个答案将包含更多不仅仅是另一个整洁的正则表达式模式。希望读者也将学习如何在正则表达式中思考，以及如何将各种结构和谐地结合在一起，这样他们将来可以自己获得更多的模式。

用于开发解决方案的语言将是PHP的简洁性。模式完成后的最终测试将在Java中完成。

第1步：前瞻断言

让我们从一个更简单的问题开始：我们希望在一个字符串的开头匹配a+，但前提是它紧跟着b+。我们可以使用^来锚定我们的匹配，因为我们只想要为了匹配a+而没有b+，我们可以使用lookahead断言(?=…)。

这是我们的模式与简单的测试工具：

function testAll($r, $tests) {

foreach ($tests as $test) {

$isMatch = preg_match($r, $test, $groups);

$groupsJoined = join('|', $groups);

print("$test $isMatch $groupsJoined\n");

}

$tests = array('aaa', 'aaab', 'aaaxb', 'xaaab', 'b', 'abbb');

$r1 = '/^a+(?=b+)/';

# └────┘

# lookahead

testAll($r1, $tests);

输出是(如ideone.com上所示)：

aaa 0

aaab 1 aaa

aaaxb 0

xaaab 0

b 0

abbb 1 a

这正是我们想要的输出：我们匹配a+，只有它在字符串的开头，并且只有紧随其后的是b+。

课程：您可以在外观中使用模式来进行断言。

第2步：捕捉前瞻(以及模式)

现在让我们说即使我们不希望^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $成为比赛的一部分，我们也希望将它捕获到组1中。另外，由于我们预计会有更复杂的模式，让## 39; s使用+自由空间修饰符，这样我们就可以使我们的正则表达式更具可读性。

基于我们之前的PHP代码段，我们现在具有以下模式：

$r2 = '/ ^ a+ (?= (b+) ) /x';

# │ └──┘ │

# │ 1 │

# └────────┘

# lookahead

testAll($r2, $tests);

输出现在(如ideone.com上所示)：

aaa 0

aaab 1 aaa|b

aaaxb 0

xaaab 0

b 0

abbb 1 a|bbb

请注意，例如 ^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $是+-ing用aaabbb捕获的每个组的结果。在这种情况下，组0(即匹配的模式)捕获+，组1捕获a。

经验教训：你可以在里面看看。您可以使用自由间距来增强可读性。

第3步：将前瞻重构为＆＃34;循环＆＃34;

在我们介绍计数机制之前，我们需要对模式进行一次修改。目前，超前是在^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $重复＆＃34;循环＆＃34;之外。到目前为止，这很好，因为我们只想断言aaabbb之后有+，但我们最终想要做的是断言我们在＆＃34; loop＆＃34;中匹配的每个+，那里有一个相应的a。

现在让我们不要担心计数机制，只需按照以下方式进行重构：

第一个重构^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $到+(注意aaabbb是非捕获组)

然后在非捕获组内移动前瞻请注意，我们现在必须跳过＆＃34;跳过＆＃34; ^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $我们可以＆＃34;看＆＃34; +，因此相应地修改模式

所以我们现在有以下内容：

$r3 = '/ ^ (?: a (?= a* (b+) ) )+ /x';

# │ │ └──┘ │ │

# │ │ 1 │ │

# │ └───────────┘ │

# │ lookahead │

# └───────────────────┘

# non-capturing group

输出与之前相同(如ideone.com上所示)，因此在这方面没有变化。重要的是，现在我们正在^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $＆＃34;循环＆＃34;的每次迭代中进行断言。根据我们目前的模式，这不是必要的，但接下来我们将制作第1组＆＃34;计数＆＃34; 对于我们使用自我参考。

课程：您可以在非捕获组内捕获。外观可以重复。

第4步：这是我们开始计算的步骤

以下是我们要做的事情：我们将重写第1组，以便：

在^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $的第一次迭代结束时，当第一个+匹配时，它应该捕获aaabbb

在第二次迭代结束时，当另一个^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $匹配时，它应该捕获+

在第三次迭代结束时，它应该捕获^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $

...

在第n次迭代结束时，组1应捕获bn

如果没有足够的^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $捕获到组1中，那么断言就会失败

因此，第1组(现为^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $)必须重写为+.这就是我们尝试添加＆＃34; aaabbb到上一次迭代中捕获的组1。

这里存在一个小问题，因为这种模式缺少＆＃34;基本情况＆＃34;，即它可以在没有自引用的情况下匹配的情况。需要一个基本案例，因为组1开始＆＃34;未初始化＆＃34 ;; 它还没有捕获任何东西(甚至不是空字符串)，所以自引用尝试总是会失败。

有很多方法可以解决这个问题，但是现在我们只是让自引用匹配可选，即^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $。这可能会或可能不会完美，但让我们看看它是做什么的，如果有的话当我们遇到问题时，我们会越过那座桥。此外，我们还会添加更多测试用例。

$tests = array(

'aaa', 'aaab', 'aaaxb', 'xaaab', 'b', 'abbb', 'aabb', 'aaabbbbb', 'aaaaabbb'

);

$r4 = '/ ^ (?: a (?= a* (\1? b) ) )+ /x';

# │ │ └─────┘ | │

# │ │ 1 | │

# │ └──────────────┘ │

# │ lookahead │

# └──────────────────────┘

# non-capturing group

输出现在(如ideone.com上所示)：

aaa 0

aaab 1 aaa|b # (*gasp!*)

aaaxb 0

xaaab 0

b 0

abbb 1 a|b # yes!

aabb 1 aa|bb # YES!!

aaabbbbb 1 aaa|bbb # YESS!!!

aaaaabbb 1 aaaaa|bb # NOOOOOoooooo....

A-HA！看起来我们现在非常接近解决方案！我们设法让第1组到＃34;计数＆＃34; 使用自我参考！但等等......第二次和最后一次测试用例出了问题！没有足够的^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $s，不知何故错了！我们将在下一步中检查为什么会发生这种情况。

课程：初始化＆＃34;的一种方法自引用组是使自引用匹配可选。

第4½步：了解出了什么问题

问题是因为我们使自引用匹配成为可选的，所以＆＃34;计数器＆＃34; 可以＆＃34;重置＆＃34; 当没有足够的^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $时回到0。让我们仔细研究一下+作为输入的模式的每次迭代会发生什么。

a a a a a b b b

↑

# Initial state: Group 1 is "uninitialized".

a a a a a b b b

↑

# 1st iteration: Group 1 couldn't match \1 since it was "uninitialized",

# so it matched and captured just b

___

a a a a a b b b

↑

# 2nd iteration: Group 1 matched \1b and captured bb

_____

a a a a a b b b

↑

# 3rd iteration: Group 1 matched \1b and captured bbb

a a a a a b b b

↑

# 4th iteration: Group 1 could still match \1, but not \1b,

# (!!!) so it matched and captured just b

___

a a a a a b b b

↑

# 5th iteration: Group 1 matched \1b and captured bb

# No more a, + "loop" terminates

A-HA！在我们的第四次迭代中，我们仍然可以匹配^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $，但我们无法匹配+！由于我们允许自引用匹配在aaabbb中是可选的，因此引擎回溯并采取了＃34;不，谢谢＃34; 选项，然后允许我们匹配和捕获只是+！

但请注意，除了在第一次迭代时，您总是可以匹配自引用^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $.当然，这是显而易见的，因为它是我们刚刚在前一次迭代和我们的设置中捕获的内容我们可以再次匹配(例如，如果我们上次捕获+，我们保证仍然会有aaabbb，但这次可能有也可能没有+)。

课程：小心回溯。正则表达式引擎将执行尽可能多的回溯，直到给定的模式匹配为止。这可能会影响性能(即灾难性的回溯)和/或正确性。

第五步：自救到救援！

＆＃34;修复＆＃34; 现在应该是显而易见的：将可选的重复与占有量词组合起来。也就是说，而不是简单地使用^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $(请记住，量化为占有的重复不会回溯，即使这样的＆＃34;合作＆＃34;可能导致整体模式的匹配)。

非正式地说，这就是^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $,+和aaabbb所说的：

^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $

(可选)＆＃34;它不必在那里，＆＃34;(占有欲)＆＃34;但如果它在那里，你必须接受它而不是放手！＆＃34;

^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $

(可选)＆＃34;它不必在那里，＆＃34;(贪心)＆＃34;但如果它是你现在可以拿它，＆＃34;(回溯)＆＃34;但是你可能会被要求让它过去！＆＃34;

^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $

(可选)＆＃34;它不必在那里，＆＃34;(不情愿)＆＃34;即使它不是你也不必采取它，＆＃34;(回溯)＆＃34;但是你可能会被要求以后再接受它！＆＃34;

在我们的设置中，^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $将不会在第一次出现，但在此之后它将始终存在，并且我们总是想要匹配它。因此，+将完全符合我们的要求。

$r5 = '/ ^ (?: a (?= a* (\1?+ b) ) )+ /x';

# │ │ └──────┘ │ │

# │ │ 1 │ │

# │ └───────────────┘ │

# │ lookahead │

# └───────────────────────┘

# non-capturing group

现在输出是(如ideone.com上所示)：

aaa 0

aaab 1 a|b # Yay! Fixed!

aaaxb 0

xaaab 0

b 0

abbb 1 a|b

aabb 1 aa|bb

aaabbbbb 1 aaa|bbb

aaaaabbb 1 aaa|bbb # Hurrahh!!!

瞧！问题解决了！！！我们正在按照我们想要的方式正确计数！

课程：了解贪婪，不情愿和占有欲重复之间的区别。可选占有可以是一个强大的组合。

第6步：完成接触

所以我们现在所拥有的是一个与^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $重复匹配的模式，并且对于匹配的每个+，在组1中捕获了相应的aaabbb.+在没有更多a时终止，或者如果断言失败，因为没有＆＃39; ta对应b，对应a。

为了完成这项工作，我们只需要附加到我们的模式^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $。现在这是对第1组匹配的后向引用，后面是行锚的结束。锚点确保字符串中没有任何额外的+; 换句话说，实际上我们有一个十亿。

这是最终的模式，包含额外的测试用例，包括长度为10,000个字符的测试用例：

$tests = array(

'aaa', 'aaab', 'aaaxb', 'xaaab', 'b', 'abbb', 'aabb', 'aaabbbbb', 'aaaaabbb',

'', 'ab', 'abb', 'aab', 'aaaabb', 'aaabbb', 'bbbaaa', 'ababab', 'abc',

str_repeat('a', 5000).str_repeat('b', 5000)

);

$r6 = '/ ^ (?: a (?= a* (\1?+ b) ) )+ \1 $ /x';

# │ │ └──────┘ │ │

# │ │ 1 │ │

# │ └───────────────┘ │

# │ lookahead │

# └───────────────────────┘

# non-capturing group

它找到4场比赛：^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $,+,aaabbb和a5000b5000。在ideone.com上运行只需0.06秒。

第7步：Java测试

因此该模式适用于PHP，但最终目标是编写一个适用于Java的模式。

public static void main(String[] args) {

String aNbN = "(?x) (?: a (?= a* (\\1?+ b)) )+ \\1";

String[] tests = {

"", // false

"ab", // true

"abb", // false

"aab", // false

"aabb", // true

"abab", // false

"abc", // false

repeat('a', 5000) + repeat('b', 4999), // false

repeat('a', 5000) + repeat('b', 5000), // true

repeat('a', 5000) + repeat('b', 5001), // false

};

for (String test : tests) {

System.out.printf("[%s]%n %s%n%n", test, test.matches(aNbN));

}

static String repeat(char ch, int n) {

return new String(new char[n]).replace('\0', ch);

}

该模式按预期工作(如ideone.com上所示)。

现在我们得出结论......

需要说明的是，前瞻中的^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $，以及＆＃34;主要的+循环＆＃34;都允许回溯。鼓励读者确认为什么这不是正确性方面的问题，以及为什么同时使两者都具有占有性也会起作用(尽管在相同的模式中混合强制性和非强制性占有量词可能会导致误解)。

还应该说，尽管它的正则表达模式与abn相匹配，但并不总是最好的＆＃34; 实践中的解决方案更好的解决方案是简单匹配^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $，然后比较托管编程语言中第1组和第2组捕获的字符串的长度。

在PHP中，它可能看起来像这样(如ideone.com中所示)：

function is_anbn($s) {

return (preg_match('/^(a+)(b+)$/', $s, $groups)) &&

(strlen($groups[1]) == strlen($groups[2]));

}

本文的目的不是要让读者相信正则表达式几乎可以做任何事情; 它显然不可能，即使对于它可以做的事情，如果它导致更简单的解决方案，至少应该考虑部分授权给托管语言。

正如在顶部提到的，虽然这篇文章必须标记为^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $ for stackoverflow，但它可能不止于此。虽然在学习断言，嵌套参考，占有量词等方面确实有价值，但也许更重要的一课就是创造性的过程，人们可以尝试解决问题，当你和你经常需要的决心和努力工作。＃39;受到各种约束，各部分的系统组成，以构建工作解决方案等。

奖金材料！ PCRE递归模式！

由于我们确实提出了PHP，因此需要说PCRE支持递归模式和子例程。因此，以下模式适用于^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $(如ideone.com上所示)：

$rRecursive = '/ ^ (a (?1)? b) $ /x';

目前Java的正则表达式不支持递归模式。

更多奖励材料！匹配anbncn !!

所以我们已经看到如何匹配非常规的anbn，但仍然没有上下文，但我们是否也可以匹配anbncn，甚至没有上下文？

当然，答案是肯定的！我们鼓励读者自己尝试解决这个问题，但下面提供了解决方案(在ideone.com上使用Java实现)。

^ (?: a (?= a* (\1?+ b) b* (\2?+ c) ) )+ \1 \2 $