关于正则表达式的定义可以看维基百科中的解释——正则表达式。正则表达式是一种强大而灵活的文本处理工具。它提供了一种完全通用的方式,能够解决各种字符串处理相关的问题:匹配、选择、编辑及验证。一般来说,正则表达式就是以某种方式来描述字符串。
在Java中,\\的意思是“插入一个正则表达式的反斜线,所以其后的字符具有特殊的意义”。在Java中的String类自带了一个正则表达式工具——split()方法,其功能是“将字符创从正则表达式匹配的地方切开。”String类还有一个正则表达式工具是“替换”。你可以只替换正则表达式第一个匹配的子串,或是替换所有匹配的地方(replaceFirst()和replaceAll()方法)。
正则表达式的完整构造子列表,参考JDK文档java.util.regex包中的Pattern类。
量词描述了一个模式吸收输入文本的方式:(1)贪婪型:量词总是贪婪的,除非有其他的选项被设置。(2)勉强型:用问号来指定,这个量词匹配瞒住模式所需的最少字符数。(3)占有型:只有在Java语言中可以使用。当正则表达式被应用于字符串时,它会产生相当多的状态,以便在匹配失败时可以回溯。而占有型量词并不保存这些中间状态,因此它们可以防止回溯。它们常用来防止正则表达式失控。
接口CharSequence从CharBuffer,String,StringBuffer,StringBuilder类之中抽象出了字符序列的一般化定义:
interface CharSequence {
chatAt(int i);
length();
subSequence(int start, int end);
toString();
}
多数正则表达式操作都接受CharSequence类型的参数。
Pattern和Matcher,一般来说,相比功能有限的String类,我们可以构造功能更强大的正则表达式对象。请看代码:
import java.util.regex.Pattern;
import java.util.regex.Matcher;
public class TestRegularExpression {
public static void main(String[] args) {
if (args.length < 2) {
System.out.println("Usage:\n java TestRegularExpression "
+ "characterSequence regularExpression+");
System.exit(0);
}
System.out.println("Intput: \"" + args[0] + "\"");
for (String arg: args) {
System.out.println("Regular expression: \"" + arg + "\"");
Pattern p = Pattern.compile(arg); // 将String类型的正则表达式转换为一个Pattern对象
Matcher m = p.matcher(args[0]);// 生成一个Matcher对象,它有很多的功能可用
while (m.find()) {
System.out.println("Match \"" + m.group() + "\" at positions " + m.start() + "-" + (m.end() - 1));
}
}
}
}
关于Matcher类请参考java.util.regex.Matcher的JDK文档。
组(Groups)是用括号划分的正则表达式。在表达式A(B(C))D中有三个组:组0是ABCD,组1是BC,组2是C。
// Matcher对象提供一系列方法,用以获取与组相关的信息
public int groupCount() // 返回该匹配器的模式中的分组数目,第0组不包括在里面
public String group() // 返回前一次匹配操作的第0组
public String group(int i) // 返回前一次匹配操作期间指定的组号
public int start(int group) // 返回前一次匹配操作中寻找到的组的起始索引
public int end(int group) // 返回前一次匹配操作中寻找到的组的最后一个字符索引加一的值
Pattern标记,Pattern类的compile()方法还有一个版本:Pattern Pattern.compile(String regex, int flag),它接受一个标记参数,以调整匹配的行为。