1 正则表达式(Regular Expression)
1)介绍
正则表达式是一个字符串,使用单个字符串来描述,用来定义匹配规则。匹配一系列符合某个句法规则的字符串。在开发中,正则表达式通常被用来检索、替换那些符合某个规则的文本。
2)匹配规则
链接:详细语法规则
// 匹配a或b或c
[abc]
// 匹配除了abc以外的任意字符
[^abc]
// 匹配一个大写或者小写字母
[a-zA-Z]
// 匹配0-9之间的一个数字
[0-9] 或 \d
// 匹配一个字母或数字或下划线
[a-zA-Z_0-9] 或 \w
// 匹配一个任意字符,\\.表示匹配.符号
.
// 代表的是行的开头
^
// 代表的是行的结尾
$
// 表示以a或b或c开头,以一个数字结尾
^[abc][0-9]$
// 代表的是单词边界
\b
\b[abc]\b,表示字母a或b或c两边需要的是非单词字符\w
// x出现一次或零次
x?
// x出现零次或多次
x*
// x出现一次或多次
x+
// x出现恰好n次
x{n}
// x出现至少n次
x{n,}
// x出现至少n次,至多m次
x{n,m}
示例:
规则:[0-9]{6,12}
意义:长度为6到12的数字。
规则:1[34578][0-9]{9}
意义:11位手机号码,第一位为1,第二位为34578中的一个,后面9位为0-9之间的任意数字。
规则:a*b
意义:在0个或多个a之后有个b,b必须是最后一个字符。
需求:匹配正确的数字
实现:
匹配正整数:\\d+
匹配正小数:\\d+\\.\\d+
匹配负整数:-\\d+
匹配负小数:-\\d+\\.\\d+
匹配保留两位小数的正数:\\d+\\.\\d+{2}
匹配保留1-3位小数的正数:\\d+\\.\\d+{1,3}
需求:匹配合法的邮箱
实现:[a-zA-Z_0-9]+@[a-zA-Z_0-9]+(\\.[a-zA-Z_0-9]+)+
或 \\w+@\\w+(\\.\\w+)+
3)常用方法
- 判断字符串是否匹配给定的规则
// 校验qq号码
String qqString = "123456789";
String regex = "[1-9][0-9]{4,14}";
boolean flag = qqString.matches(regex); // true
// 校验手机号码
String phone = "13812337788";
String regex1 = "1[34578][0-9]{9}";
boolean flag1 = phone.matches(regex1); // true
- 给定规则,拆分字符串
// 分割字符串中的数字
String ss = "2018-7-12";
String regex2 = "-";
String[] result = ss.split(regex2);
- 根据规则,替换字符串
// 替换字符串,将数字替换成*
String sss = "Hello123World456";
String regex3 = "[0-9]";
String result3 = sss.replaceAll(regex3, "*"); // Hello***World***
2 Java中的正则表达式使用
java.util.regex包中主要包括三个类:
- Pattern类
pattern 对象是一个正则表达式的编译表示。
Pattern 类没有公共构造方法。要创建一个 Pattern 对象,你必须首先调用其公共静态编译方法,它返回一个 Pattern 对象。
该方法接受一个正则表达式作为它的第一个参数。 - Matcher类
Matcher 对象是对输入字符串进行解释和匹配操作的引擎。
与Pattern 类一样,Matcher 也没有公共构造方法。
你需要调用 Pattern 对象的 matcher 方法来获得一个 Matcher 对象。 - PatternSyntaxException
PatternSyntaxException 是一个非强制异常类,它表示一个正则表达式模式中的语法错误。
public static void main(String[] args) {
String content="hello,i am lihaogn";
String pattern=".*am.*";
// 按规则匹配
boolean isMatch=Pattern.matches(pattern, content);
System.out.println(isMatch); // true
}
2.1 捕获组
捕获组是把多个字符当一个单独单元进行处理的方法,它通过对括号内的字符分组来创建。
例如,正则表达式 (dog) 创建了单一分组,组里包含"d",“o”,和"g"。
捕获组是通过从左至右计算其开括号来编号。例如,在表达式((A)(B(C))),有四个这样的组:
- (( A )( B( C )))
- ( A )
- ( B ( C ))
- ( C )
可以通过调用 matcher 对象的 groupCount 方法来查看表达式有多少个分组。
groupCount 方法返回一个 int 值,表示matcher对象当前有多个捕获组。
还有一个特殊的组(group(0)),它总是代表整个表达式。该组不包括在 groupCount 的返回值中。
// 按指定模式在字符串查找
String line = "This order was placed for QT3000! OK?";
/**
* \D -> 非数字字符匹配。等效于 [^0-9]。
* \d -> 数字字符匹配。等效于 [0-9]。
* + -> 一次或多次匹配前面的字符或子表达式。例如,"zo+"与"zo"和"zoo"匹配,但与"z"不匹配。+ 等效于 {1,}。
* . -> 匹配除"\r\n"之外的任何单个字符。若要匹配包括"\r\n"在内的任意字符,请使用诸如"[\s\S]"之类的模式
* * -> 零次或多次匹配前面的字符或子表达式。例如,zo* 匹配"z"和"zoo"。* 等效于 {0,}
*/
String pattern = "(\\D*)(\\d+)(.*)";
// 创建 Pattern 对象
Pattern r = Pattern.compile(pattern);
// 现在创建 matcher 对象
Matcher m = r.matcher(line);
if (m.find()) {
System.out.println("matcher.group() -> "+m.group()); // matcher.group() -> This order was placed for QT3000! OK?
System.out.println("Found value: " + m.group(0)); // Found value: This order was placed for QT3000! OK?
System.out.println("Found value: " + m.group(1)); // Found value: This order was placed for QT
System.out.println("Found value: " + m.group(2)); // Found value: 3000
System.out.println("Found value: " + m.group(3)); // Found value: ! OK?
} else {
System.out.println("NO MATCH");
}