正则表达式的底层实现

最新推荐文章于 2024-01-29 22:30:13 发布

衰小孩、519

最新推荐文章于 2024-01-29 22:30:13 发布

阅读量150

点赞数

分类专栏：正则表达式文章标签： java

本文链接：https://blog.csdn.net/A_JOKER___/article/details/121049693

版权

正则表达式专栏收录该内容

9 篇文章 0 订阅

订阅专栏

底层源码

package com.ftn.regexp;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

//分析java的正则表达式的底层实现
public class RegTheory {
    public static void main(String[] args) {
        String content = "2005年6月，在Java One大会上，Sun公司发布了Java SE 6。" +
                "此时，Java的各种版本已经更名，已取消其中的数字2，如J2EE更名为JavaEE，" +
                "J2SE更名为JavaSE，J2ME更名为JavaME。 [12] \n" +
                "2006年11月13日，Java技术的发明者Sun公司宣布，将Java技术作为免费软件对外发布。" +
                "Sun公司正式发布的有关Java平台标准版的第一批源代码，以及Java迷你版的可执行源代码。" +
                "从2007年3月起，全世界所有的开发人员均可对Java源代码进行修改 [13]  。\n" +
                "2009年，甲骨文公司宣布收购Sun [14]  。2010年，Java编程语言的共同创始人之一" +
                "姆斯·高斯林从Oracle公司辞职。2011年，甲骨文公司举行了全球性的活动，以庆祝Java7的推出，" +
                "随后Java7正式发布。2014年，甲骨文公司发布了Java8正式版 [15]  。";

        //目标：匹配所有四个数字
        String regStr = "(\\d\\d)(\\d\\d)";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        /**
         * matcher.find 完成的任务
         * 分组：(\d\d)(\d\d)，正则表达式中有()表示分组，第一个()代表第一组，第二个()代表第二组
         * 1. 根据指定的规则，定位满足规则的子字符串（如2006）
         * 2. 找到后，将子字符串的开始的索引记录到 matcher对象的属性 int[] groups
         *    groups[0]=0,把该子字符串的结束的索引 +1 的值记录到 groups[1]=4
         *    如果有分组，则第一组匹配到的字符串索引将会存储到 group[2]=0,group[3]=2
         *    第二组匹配到的字符串索引将会存储到 group[4]=2,group[5]=4
         * 3.同时记录 oldLast的值为子字符串的结束的索引 +1 的值即 4，下次执行 find时，就从 4 开始匹配
         */
        while (matcher.find()){
            /**
             * //matcher.group 源码分析
             *             public String group(int group) {
             *         if (first < 0)
             *             throw new IllegalStateException("No match found");
             *         if (group < 0 || group > groupCount())
             *             throw new IndexOutOfBoundsException("No group " + group);
             *         if ((groups[group*2] == -1) || (groups[group*2+1] == -1))
             *             return null;
             *         return getSubSequence(groups[group * 2], groups[group * 2 + 1]).toString();
             *     }
             *
             * 1. 根据 groups[0]=0和 groups[1]=4 记录的索引位置，从 content 截取字符串返回
             *      即 [0,4) ,包含 0 但不包含 4
             */
            //1.如果正则表达式有分组，取出匹配的字符串的规则如下
            //2.group(0):表示匹配到的整体的字符串
            //3.group(1):表示匹配到的第一组的字符串
            //4.group(2):表示匹配到的第二组的字符串
            System.out.println(matcher.group(0));
            System.out.println(matcher.group(1));
            System.out.println(matcher.group(2));
        }
    }
}

衰小孩、519

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式的底层实现

底层源码package com.ftn.regexp;import java.util.regex.Matcher;import java.util.regex.Pattern;//分析java的正则表达式的底层实现public class RegTheory { public static void main(String[] args) { String content = "2005年6月，在Java One大会上，Sun公司发布了Java SE 6。" +
复制链接

扫一扫