简介
正则表达式定义了字符串的模式,他可以用来搜索、编辑或处理文本。并不仅限于某一种语言,但是在每种语言中有细微的差别。
1、正则表达式实例
一个字符串其实就是一个简单的正则表达式,例如 Hello World
正则表达式匹配 "Hello World"
字符串。
.
(点号)也是一个正则表达式,它匹配任何一个字符如:"a"
或 "1"
。
下表列出了一些正则表达式的实例及描述:
正则表达式|描述|可匹配实例 -|-|- this is text
|匹配字符串|"this is text"
this\s+is\s+text
|注意字符串中的 \s+
。匹配单词 "this"
后面的 \s+
可以匹配多个空格,之后匹配 is
字符串,再之后 \s+
匹配多个空格然后再跟上 text
字符串。|this is text
^\d+(.\d+)?|^
定义了以什么开始,\d+
匹配一个或多个数字;?
设置括号内的选项是可选的;\.
匹配 .
| "5"
, "1.5"
和 "2.21"
。
Java 正则表达式和 Perl 的是最为相似的。
java.util.regex 包主要包括以下三个类:
-
Pattern 类 pattern 对象是一个正则表达式的编译表示。Pattern 类没有公共构造方法。要创建一个 Pattern 对象,你必须首先调用其公共静态编译方法,它返回一个 Pattern 对象。该方法接受一个正则表达式作为它的第一个参数。
-
Matcher 类 Matcher 对象是对输入字符串进行解释和匹配操作的引擎。与Pattern 类一样,Matcher 也没有公共构造方法。你需要调用 Pattern 对象的 matcher 方法来获得一个 Matcher 对象。
-
PatternSyntaxException PatternSyntaxException 是一个非强制异常类,它表示一个正则表达式模式中的语法错误。
以下实例中使用了正则表达式 .*China.*
用于查找字符串中是否包了 China
子串
@Test
public void test01(){
String text = "China is a county with a long history.";
String regex = ".*China.*";
boolean matches = Pattern.matches(regex, text);
System.out.println("是否包含China:" + matches);
// 是否包含China:true
}
2、捕获组
捕获组是把多个字符当一个单独单元进行处理的方法,它通过对括号内的字符分组来创建。
例如,正则表达式 (dog) 创建了单一分组,组里包含"d","o",和"g"。
捕获组是通过从左至右计算其开括号来编号。例如,在表达式((A)(B(C)
,有四个这样的组:
((A)(B(C)))
(A)
(B(C))
(C)
可以通过调用 matcher 对象的 groupCount 方法来查看表达式有多少个分组。groupCount 方法返回一个 int 值,表示matcher对象当前有多个捕获组。
还有一个特殊的组(group(0)),它总是代表整个表达式。该组不包括在 groupCount 的返回值中。也就是说,没有使用()的表达式,匹配出的结果,即便得到了全匹配,他的groupCount也为0。
@Test
public void test02(){
String text = "Onmyoji is a round game of public test in 2016 summer.";
String regex = "(\\D*)(\\d+)(.*)";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(text);
if(matcher.find()){
int count = matcher.groupCount();
for (int i = 0; i <= count ; i++) {
System.out.println("group " + i + ":" + matcher.group(i));
}
}else{
System.out.println("Not matched.");
}
/**
* group 0:Onmyoji is a round game of public test in 2016.
* group 1:Onmyoji is a round game of public test in
* group 2:2016
* group 3:summer.
*/
}
次数匹配操作符后面没跟
?
的话,则都为贪婪匹配。