Java快速入门(23) - 正则表达式

前言

Java提供了java.util.regex包用于正则表达式的模式匹配。Java中的正则表达式和Perl语言很像,也很容易学习。
正则表达式是一个特殊的字符序列,可以帮助我们匹配或查找、修改字符串,使用的是专用的语法格式。其可以用来查找、编辑、操作文本和数据。
java.util.regex包主要包含下面3个类:

  • Pattern类。Pattern类的对象表示的是编译后的正则表达式。Pattern类没有提供公共构造器,因此,要想创建一个Pattern类对象,我们必须首先调用它的compile()公共静态方法,这个方法会返回一个Pattern类对象,compile()方法的第一个参数是正则表达式。
  • Matcher类。Matcher类对象可以表达式模式进行解释并针对输入字符串进行匹配操作。和Pattern类一样,Matcher类也没有公共构造器,我们通过调用Pattern对象的matcher()方法创建Matcher对象。
  • PatternSytaxException类。PatternSytaxException对象是未经检查的异常,它表示正则表达式中的语法错误。

捕获组

捕获组指的是一种将多个字符视为一个单元的方法。通过括号将字符包含在一起来创建捕获组。例如,正则表达式“(dog)”创建了一个单一的组,其包含字符“d”、“o”和“g”。
捕获组通过括号区分组,按从左到右来对分组计数。以表达式“((A)(B©))”为例,其包含4个分组:

  • ((A)(B©))
  • (A)
  • (B©)
  • ©

通过调用Matcher类对象的groupCount()方法,可以返回表达式中的分组数。groupCount()方法返回的是int整型数值,表示匹配的模式中包含的捕获组数量。
还有一个特殊的组,组0,它始终代表整个表达式,且该组不包括在groupCount返回的总数中。

程序举例

下面程序描述了如何从给定的字母数字字符串中查找数字字符串。

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   public static void main( String args[] ) {
      // String to be scanned to find the pattern.
      String line = "This order was placed for QT3000! OK?";
      String pattern = "(.*)(\\d+)(.*)";

      // Create a Pattern object
      Pattern r = Pattern.compile(pattern);

      // Now create matcher object.
      Matcher m = r.matcher(line);
      if (m.find( )) {
         System.out.println("Found value: " + m.group(0) );
         System.out.println("Found value: " + m.group(1) );
         System.out.println("Found value: " + m.group(2) );
      }else {
         System.out.println("NO MATCH");
      }
   }
}

程序输出如下:

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0

正则表达式语法

下面表格中列出了Java中所有可用的正则表达式元字符语法:

SubexpressionMatches
^匹配行首。
$匹配行末。
.匹配除换行符以外的任何单个字符。
[…]匹配括号中的任何单个字符。
[^…]匹配任何不在方括号中的单个字符。
\A整个字符串的起始位置。
\z整个字符串的结束位置。
\Z整个字符串的结尾,但允许的最后一行终止符除外。
re*匹配0个或多个出现的前一个表达式。
re+匹配1个或多个出现的前一个表达式。
re?匹配0个或1个出现的前一个表达式。
re{ n}匹配n个出现的前一个表达式。
re{ n,}匹配n个或多个出现的前一个表达式。
re{ n, m}匹配至少n个,至多m个出现的前一个表达式。
a| b匹配a或b。
(re)对正则表达式进行分组并记住匹配的文本。
(?: re)对正则表达式进行分组,而无需记住匹配的文本。
(?> re)匹配独立模式而不回溯。
\w匹配单词字符。
\W匹配非单词字符。
\s匹配空白符,等同于 [\t\n\r\f]。
\S匹配非空白符
\d匹配数字,等同于 [0-9].
\D匹配非数字。
\A匹配字符串的开头。
\Z匹配字符串的结尾。 如果存在换行符,则匹配换行符。
\z匹配字符串的结尾。
\G匹配最后一场比赛结束的地点。
\n向后引用以捕获组号“ n”。
\b放在括号外时匹配单词边界。 与方括号内的空格匹配(0x08)。
\B匹配非单词边界。
\n, \t, etc.匹配换行符,回车符,制表符等。
\Q转义(引号)所有字符,直到\E。
\E结束语,以\Q开头。

Matcher类中的方法

下面列出的是一些实用的方法。

索引类型的方法

索引类型的方法从输入字符串中返回匹配字符的精确索引值。

序号方法 & 描述
1public int start()
返回上一个匹配项的起始索引。
2public int start(int group)
返回给定组在上一次匹配操作期间捕获的子序列的起始索引。
3public int end()
返回匹配的最后一个字符后的偏移量。
4public int end(int group)
返回在上一次匹配操作期间给定组捕获的子序列的最后一个字符之后的偏移量。

查找类型的方法

查找类型的方法检查输入字符并返回一个布尔值,指示是否找到匹配的模式。

序号方法 & 描述
1public boolean lookingAt()
从区域的开头开始,将模式与输入序列进行匹配。
2public boolean find()
找到与模式匹配的输入序列的下一个子序列。
3public boolean find(int start)
重置此匹配器,然后尝试从指定的索引开始查找与模式匹配的输入序列的下一个子序列。
4public boolean matches()
尝试根据图案匹配整个区域。

替换方法

替换类的方法在对输入字符串替换文本时很有用。

序号方法 & 描述
1public Matcher appendReplacement(StringBuffer sb, String replacement)
实现一个非终端的附加和替换步骤。
2public StringBuffer appendTail(StringBuffer sb)
实现一个终端附加和替换步骤。
3public String replaceAll(String replacement)
用给定的替换字符串替换与模式匹配的输入序列的每个子序列。
4public String replaceFirst(String replacement)
用给定的替换字符串替换与该模式匹配的输入序列的第一个子序列。
5public static String quoteReplacement(String s)
返回指定字符串的文字替换字符串。 此方法产生一个String,它将用作Matcher类的appendReplacement()方法中的文字替换。

start和end方法

下面程序计算了“cat”单词在输入字符串中出现的次数。

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static final String REGEX = "\\bcat\\b";
   private static final String INPUT = "cat cat cat cattie cat";

   public static void main( String args[] ) {
      Pattern p = Pattern.compile(REGEX);
      Matcher m = p.matcher(INPUT);   // get a matcher object
      int count = 0;

      while(m.find()) {
         count++;
         System.out.println("Match number "+count);
         System.out.println("start(): "+m.start());
         System.out.println("end(): "+m.end());
      }
   }
}

程序输出为:

Match number 1
start(): 0
end(): 3
Match number 2
start(): 4
end(): 7
Match number 3
start(): 8
end(): 11
Match number 4
start(): 19
end(): 22

我们可以看到,上面程序中使用了边界(\b)来确保字符“c”“a”“t”不是较长单词的子串。它还提供了一些有用的信息,说明匹配在输入字符串中的何处发生。
start()方法返回在上一次匹配操作期间给定组捕获的子序列的起始位置索引,而end()方法返回最后匹配的字符的索引加1。

matches和lookingAt方法

matches()和lookingAt()方法都是按照指定的模式对输入的字符串序列进行匹配。然而,这两个方法的区别是,matches()需要整个输入字符串都要匹配模式,而lookingAt()方法没有这个要求。
两个方法都从输入字符串的起始位置开始。下面程序是这两个方法应用的例子.

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static final String REGEX = "foo";
   private static final String INPUT = "fooooooooooooooooo";
   private static Pattern pattern;
   private static Matcher matcher;

   public static void main( String args[] ) {
      pattern = Pattern.compile(REGEX);
      matcher = pattern.matcher(INPUT);

      System.out.println("Current REGEX is: "+REGEX);
      System.out.println("Current INPUT is: "+INPUT);

      System.out.println("lookingAt(): "+matcher.lookingAt());
      System.out.println("matches(): "+matcher.matches());
   }
}

程序输出如下:

Current REGEX is: foo
Current INPUT is: fooooooooooooooooo
lookingAt(): true
matches(): false

replaceFirst和replaceAll方法

replaceFirst()和replaceAll()方法对匹配给定正则表达式的文本进行替换。正如这两个方法的名称所表达的一样,replaceFirst()方法替换第一个匹配的文本,而replaceAll()方法替换所有匹配的文本。
下面程序描述了这两个方法如何使用:

Live Demo
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static String REGEX = "dog";
   private static String INPUT = "The dog says meow. " + "All dogs say meow.";
   private static String REPLACE = "cat";

   public static void main(String[] args) {
      Pattern p = Pattern.compile(REGEX);
      
      // get a matcher object
      Matcher m = p.matcher(INPUT); 
      INPUT = m.replaceAll(REPLACE);
      System.out.println(INPUT);
   }
}

程序输出如下:

The cat says meow. All cats say meow.

appendReplacement和appendTail方法

Matcher类也提供了appendReplacement()和appendTail()方法,用于文本替换。
下面程序是这两个方法的应用举例。

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches {

   private static String REGEX = "a*b";
   private static String INPUT = "aabfooaabfooabfoob";
   private static String REPLACE = "-";
   public static void main(String[] args) {

      Pattern p = Pattern.compile(REGEX);
      
      // get a matcher object
      Matcher m = p.matcher(INPUT);
      StringBuffer sb = new StringBuffer();
      while(m.find()) {
         m.appendReplacement(sb, REPLACE);
      }
      m.appendTail(sb);
      System.out.println(sb.toString());
   }
}

程序输出如下:

-foo-foo-foo-

PatternSyntaxException类中的方法

PatternSytaxException类是未经检查的异常,它指示正则表达式中的语法错误。PatternSytaxException类提供下表中的方法来帮助我们检查出错的地方。

序号方法 & 描述
1public String getDescription()
获取错误描述。
2public int getIndex()
获取错误索引。
3public String getPattern()
检索错误的正则表达式模式。
4public String getMessage()
返回多行字符串,其中包含语法错误及其索引的说明,错误的正则表达式模式以及模式中错误索引的直观指示。

关注公众号「小白轻松学编程」

更多交流,欢迎微信搜索并关注公众号 「 小白轻松学编程 」!
博客里所有教程会第一时间在公众号上更新哟,扫码关注一下吧~在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值