正则表达式
语法
元字符-转义号 \\
\\ 符号 说明:在我们使用正则表达式去检索某些特殊字符的时候,需要用到转义符号,否则检索不到结果,甚至会报错。案例:用 去 匹 配 " a b c 去匹配 "abc 去匹配"abc" 会怎样?
再次提示:
在Java的正则表达式中,两个\\代表其他语言中的一个\
常见的需要转义的符号:. * + ( ) $ / \ ? [ ] ^ { }
元字符-字符匹配符
[ ] 可接收的字符列表 [abcd] a,b,c,d中的任意1个字符
[^] 不接受的字符列表 [^ abc] 除a,b,c之外的任意1个字符,包括数字和特殊符号
- 连字符 A-Z 任意一个大写字母
. 匹配除了\n以外的任何字符 a…b 以a开头,b结尾,中间包括2个任意字符的长度为4的字符串 例:aaab,aefb,a35b,a#$b
\\d 匹配单个数字字符,相当于[0-9] \\d{3}(\\d)? 包含3个或者4个数字的字符串 123,1234
\\D 匹配单个非数字字符,相当于[^0-9] \\D(\\d)* 以单个非数字字符开头,后接任意个数字字符串 a、A0324
\\w 匹配单个数字、大小写字母字符,下划线,相当于[0-9a-zA-Z_] \\d{3}\\w{4} 以三个数字字符开头的长度为7的数字字母字符串 234abcd、12345jp
\\W 匹配单个非数字、大小写字母字符,相当于[^0-9a-zA-Z] \\W+\\d{2} 以至少1个非数字字母字符开头,2个数字字符结尾的字符串 #29,#?@24
2.Java正则表达式默认是区分字母大小写的,如何实现不区分大小写。
(?i)abc 表示abc都不区分大小写
a(?i)bc 表示bc都不区分大小写
a((?i)b)c 表示b不区分大小写
Pattern pattern = Pattern.compile(regStr,Pattern.CASE_INSENSITIVE); 创建正则表达式对象时,设置大小写不敏感。
matcher.find()原理
Java匹配默认是贪婪匹配,所以他会尽可能的去匹配多的。
如果想要非贪婪匹配在最后面加一个问号
如果正则表达式有 “()” 既分组
取出匹配的字符串规则如下:
group(0) 表示匹配到的子字符串
group(1) 表示匹配到的子字符串的第一组字串
group(2) 表示匹配到的子字符串的第2组字串
但是分组的数不能越界。
正则表达式三个常用类
Pattern类
pattern 对象是一个正则表达式对象。Pattern 类没有公共构造方法。要创建一个 Pattern 对象,调用其公共静态方法,它返回一个 Pattern 对象。该方法接收一个正则表达式作为它的第一个参数。
比如:Pattern pat = Pattern.compile(RegStr);
Matcher 类
Matcher 对象是对输入字符串进行解释和匹配的引擎。与 Pattern类一样,Matcher也没有公共构造方法。你需要调用Pattern 对象的 matcher方法来获得一个 Matcher对象。
PatternSyntaxException
PatternSyntaxException 是一个非强制异常类,它表示一个正则表达式模式中的语法错误。
分组、捕获、反向引用
分组
我们可以用圆括号组成一个比较复杂的匹配模式,那么一个圆括号的部分我们可以看作是一个子表达式/一个分组。
捕获
把正则表达式中子表达式/分组匹配的内容,保存到内存中以数字编号或显示命名的组里,方便后面引用,从左到右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。组0代表的是整个正则式。
反向引用
圆括号的内容被捕获后,可以在这个括号后被使用,从而写出一个比较实用的匹配模式,这个我们称为反向引用,这种引用既可以是在正则表达式内部,也可以是在正则表达式外部,内部反向引用**\\分组号**,外部反向引用:$分组号
反向引用小案例
- 要匹配两个连续的相同数字:(\\d)\\1
- 要匹配五个连续的相同数字:(\\d)\\1{4}
- 要匹配个位与千位相同,十位与百位相同的数5225,1551:(\\d)(\\d)\\2\\1