重学正则表达式（二）

最新推荐文章于 2024-09-09 11:12:22 发布

不务正业的攻城狮

最新推荐文章于 2024-09-09 11:12:22 发布

阅读量132

点赞数

分类专栏：正则表达式文章标签：正则表达式

本文链接：https://blog.csdn.net/hxj413977035/article/details/121338562

版权

正则表达式专栏收录该内容

9 篇文章 0 订阅

订阅专栏

前一节我们学习了组成正则表达式的元字符，这节我们来看一下正则表达式的匹配模式。什么是正则表达式的匹配模式，废话不多说，上代码：

package com.info.common.regex;

import lombok.extern.slf4j.Slf4j;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

@Slf4j
public class RegexTest {

    public static void main(String[] args) {
		String str = "aaabb";
        String regex = "(a+)";
        pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        while (matcher.find()){
            log.info(matcher.group());
        }
}

运行上面的代码，我们可以看到结果是 aaa，再看下面的代码

		str = "aaabb";
        regex = "(a+?)";
        pattern = Pattern.compile(regex);
        matcher = pattern.matcher(str);
        List<String> result= new ArrayList<>(1 << 2);
        while (matcher.find()){
            result.add(matcher.group());
        }
        log.info(JSON.toJSONString(result));

下面这个案例我们得到的结果是 ["a","a","a"]，至于这里的表达式为什么是 (a+) 而不是 a+ ，我也没完全弄明白，只能说是语言的特性吧，在java里，匹配行的开始和结束我们也需要用括号把 ^ $ 括起来，类似 (^) ($) 这样。我们看到，第二个表达式只是在第一个表达式的+后面添加了一个?,两次匹配出来的结果就不一样了，这是为什么呢？这就引入了我们今天要讲的话题，正则表达式的匹配模式，贪婪、非贪婪与独占模式。

贪婪匹配
在正则中，表示次数的量词默认是贪婪的，在贪婪模式下，
会尝试尽可能最大长度去匹配。
以上面的例子为例，a+ 会尝试尽量匹配更多的 a，直到第一个字母 b不满足要求为止，匹配上三个 a。贪婪模式的特点就是尽可能进行最大长度匹配。所以要不要使用贪婪模式是根据需求场景来定的。

非贪婪匹配
与之对应的就是非贪婪匹配，那么如何将贪婪模式变成非贪婪模式呢？我们可以在量词后面加上英文的问号 ? ，这时正则变为了 (a+?)，匹配的结果变成了 ["a","a","a"] ，匹配的时候从一个a开始，一个字母 a 满足 (a+) ，于是就匹配到第一个子串，继续向后一直到字母 b ，不满足 (a+)，匹配结束，因此得到的结果就是 ["a","a","a"]。
上代码：

		str = "\"the little dog\" is a toy, \"it looks like a cat.\"";
        regex = "\".+\"";
        pattern = Pattern.compile(regex);
        matcher = pattern.matcher(str);
        result= new ArrayList<>(1 << 2);
        while (matcher.find()){
            result.add(matcher.group());
        }
        log.info(JSON.toJSONString(result));

运行上面的案例，我们得到的结果是 ["the little dog" is a toy, it looks like a cat."]，这可能并不是我们想要的结果，我们只是想要 “” 里面的内容，但是如果我们把正则改为非贪婪匹配 .+? ，就可以得到我们想要的结果 ["the little dog","it looks like a cat."]。顺带提一句，有的同学可能会好奇上面的代码里为什么会有 \" 这样的字符，这个是因为在java语法里，引号里面使用引号是需要转义的， \" 表示的就是 " 本身，大家不必太在意。

独占匹配
不管是贪婪模式，还是非贪婪模式，都需要发生回溯才能完成相应的功能。但是在一些场景下，我们不需要回溯，匹配不上返回失败就好了，因此正则中还有另外一种模式，独占模式，它类似贪婪匹配，但匹配过程不会发生回溯，因此在一些场合下性能会更好。
例如下面的正则：String regex = ab{1,3}z; String str = abbac，在匹配时，b{1,3}会尽可能长地去匹配，当匹配完 abb 后，由于 b 要尽可能匹配最长，即三个，但字符串中后面是个 c 就会导致匹配不上，这时候正则就会向前回溯，回退出当前字符 c，接着用正则中的 c 去匹配。
独占模式和贪婪模式很像，独占模式会尽可能多地去匹配，如果匹配失败就结束，不会进行回溯，这样的话就比较节省时间。具体的方法就是在量词后面加上加号 + 。
如果你用 ab{1,3}+bc 去匹配 abbbc 字符串，b{1,3}+会把前面两个 b 都用掉，并且不会回溯，这样字符串中内容只剩下 c了，导致正则中加号后面的 c 匹配不到符合要求的内容，匹配失败。如果是贪婪模式 ab{1,3}bc 或非贪婪模式 ab{1,3}?bc 都可以匹配上。

		str = "abbbc";
        regex = "(ab{1,3}?bc)";
        pattern = Pattern.compile(regex);
        matcher = pattern.matcher(str);
        result= new ArrayList<>(1 << 2);
        while (matcher.find()){
            result.add(matcher.group());
        }
        log.info(JSON.toJSONString(result));