正则表达式的规则与方法介绍
正则学习步骤:
1、正则表达式的规则与方法介绍
2、正则常见方法演示
3、正则表达式应用(重点:爬虫)
什么是正则表达式?
直译为:正确的规则的表达式子。 通过一些特定的符号来体现的。
应用的对象:正则表达式用于操作字符串数据。
缺点: 虽然简化了,但是阅读性差。
补救:1、注明。2、将正则表达式用方法封装。
正则表达式regex(字符串)使用相关的类:
1、String类
1.1方法:1.1.1切割:String.split(regex)
1.1.2校验:String.matches(regex)
1.1.3替换:String.replaceAll(regex)
2、java.util.regex包下的两个类,Pattern类与Matcher类
2.1使用方法前:
2.1.1、将正则封装成对象。Pattern p=Pattern.compile(regex);
2.1.2、通过正则对象,获取匹配器对象。Matcher m=p.matcher(str);
2.2方法使用:
Pattern:
匹配:p.matches(regex,inputString);
切割:p.split(regex);
Matcher:
替换;m.replaceAll(regex);
获取:while(m.find()){
m.group();
}
正则表达式的规则:
1、参见类Pattern。
2、Pattern中重要掌握:
非捕获组:
2.1字符类[abc]a、b 或 c(简单类)
[^abc] 任何字符,除了 a、b 或 c(否定)
[a-zA-Z] a 到z 或 A 到 Z,两头的字母包括在内(范围)
[a-d[m-p]] a 到 d 或 m 到p:[a-dm-p](并集)
[a-z&&[def]] d、e 或 f(交集)
[a-z&&[^bc]] a 到 z,除了 b 和 c:[ad-z](减去)
[a-z&&[^m-p]] a 到 z,而非 m 到 p:[a-lq-z](减去)
2.2预定义字符类
. 任何字符(与行结束符可能匹配也可能不匹配)
\d 数字:[0-9]
\D 非数字: [^0-9]
\s 空白字符:[ \t\n\x0B\f\r]
\S 非空白字符:[^\s]
\w 单词字符:[a-zA-Z_0-9]
\W 非单词字符:[^\w]
2.3边界匹配器
\b 单词边界
2.4Greedy 数量词
X? X,一次或一次也没有
X* X,零次或多次
X+ X,一次或多次
X{n} X,恰好 n 次
X{n,} X,至少 n 次
X{n,m} X,至少 n 次,但是不超过 m 次
组和捕获:
2.5组:以()封装组。问((A)(B(C))) 中有多少个组?
1 ((A)(B(C)))
2 \A
3 (B(C))
4 (C)
数组技巧:从左往右,第一左括号如果没有一个字符为单独封装,则(后面的为第一组,否则该单独封装的字符为第一组
2.6捕获:以String.replaceAll("(.)\\1+", "$1");
\\1:组编号。$1:代表第一组内容。