Java中的正则表达式学习笔记-CSDN博客

本文链接：https://blog.csdn.net/iteye_517/article/details/82485459

关于正则表达式的定义可以看维基百科中的解释——正则表达式。正则表达式是一种强大而灵活的文本处理工具。它提供了一种完全通用的方式，能够解决各种字符串处理相关的问题：匹配、选择、编辑及验证。一般来说，正则表达式就是以某种方式来描述字符串。

在Java中，\\的意思是“插入一个正则表达式的反斜线，所以其后的字符具有特殊的意义”。在Java中的String类自带了一个正则表达式工具——split()方法，其功能是“将字符创从正则表达式匹配的地方切开。”String类还有一个正则表达式工具是“替换”。你可以只替换正则表达式第一个匹配的子串，或是替换所有匹配的地方（replaceFirst()和replaceAll()方法）。

正则表达式的完整构造子列表，参考JDK文档java.util.regex包中的Pattern类。

量词描述了一个模式吸收输入文本的方式：（1）贪婪型：量词总是贪婪的，除非有其他的选项被设置。（2）勉强型：用问号来指定，这个量词匹配瞒住模式所需的最少字符数。（3）占有型：只有在Java语言中可以使用。当正则表达式被应用于字符串时，它会产生相当多的状态，以便在匹配失败时可以回溯。而占有型量词并不保存这些中间状态，因此它们可以防止回溯。它们常用来防止正则表达式失控。

接口CharSequence从CharBuffer，String，StringBuffer，StringBuilder类之中抽象出了字符序列的一般化定义：

interface CharSequence {
    chatAt(int i);
    length();
    subSequence(int start, int end);
    toString();
}

多数正则表达式操作都接受CharSequence类型的参数。

Pattern和Matcher，一般来说，相比功能有限的String类，我们可以构造功能更强大的正则表达式对象。请看代码：

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class TestRegularExpression {
    public static void main(String[] args) {
        if (args.length < 2) {
            System.out.println("Usage:\n java TestRegularExpression "
             + "characterSequence regularExpression+");
            System.exit(0);
        }
         System.out.println("Intput: \"" + args[0] + "\"");
    
         for (String arg: args) {
             System.out.println("Regular expression: \"" + arg + "\"");
             Pattern p = Pattern.compile(arg); // 将String类型的正则表达式转换为一个Pattern对象
            Matcher m = p.matcher(args[0]);// 生成一个Matcher对象，它有很多的功能可用
             while (m.find()) {
                 System.out.println("Match \"" + m.group() + "\" at positions " + m.start() + "-" + (m.end() - 1));
             }
         }
    }

}

关于Matcher类请参考java.util.regex.Matcher的JDK文档。

组（Groups）是用括号划分的正则表达式。在表达式A(B(C))D中有三个组：组0是ABCD，组1是BC，组2是C。

// Matcher对象提供一系列方法，用以获取与组相关的信息
public int groupCount() // 返回该匹配器的模式中的分组数目，第0组不包括在里面
public String group() // 返回前一次匹配操作的第0组
public String group(int i) // 返回前一次匹配操作期间指定的组号
public int start(int group) // 返回前一次匹配操作中寻找到的组的起始索引
public int end(int group)  // 返回前一次匹配操作中寻找到的组的最后一个字符索引加一的值

Pattern标记，Pattern类的compile()方法还有一个版本：Pattern Pattern.compile(String regex, int flag)，它接受一个标记参数，以调整匹配的行为。