1. "."——任意字符
表示任意字符(匹配除“\
n
”之外的任何单个字符。要匹配包括“\
n
”在内的任何字符,请使用像“(.|\n)
”的模式。)
2. 次数
* | 匹配前面的子表达式零次或多次。 |
---|---|
+ | 匹配前面的子表达式一次或多次。 |
? | 匹配前面的子表达式零次或一次。 |
{n} | n是一个非负整数。匹配确定的n次。 |
{n,} | n是一个非负整数。至少匹配n次。 |
{n,m} | m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。 |
例如:
zo*能匹配“z
”以及“zoo
”。*等价于{0,}。
“zo+
”能匹配“zo
”以及“zoo
”,但不能匹配“z
”。+等价于{1,}。
“do(es)?
”可以匹配“do
”或“does
”中的“do
”。?等价于{0,1}。
“o{2}
”不能匹配“Bob
”中的“o
”,但是能匹配“food
”中的两个o。
“o{2,}
”不能匹配“Bob
”中的“o
”,但能匹配“foooood
”中的所有o。“o{1,}
”等价于“o+
”。“o{0,}
”则等价于“o*
”。
“o{1,3}
”将匹配“fooooood
”中的前三个o。“o{0,1}
”等价于“o?
”。请注意在逗号和两个数之间不能有空格。
3. 选择
3.1 "[xxx]"——其中一个
(1)[xyz]
匹配“xyz”中的任意一个
(2)[a-z]
匹配a-z中的任意一个。 A-Z, A-F, 0-9,
3.2 "[^xxx]"——不匹配其中任意一个
(1)[^xyz]
不匹配“xyz”中的任意一个
(2)[^a-z]
匹配a-z中的任意一个。 A-Z, A-F, 0-9,
3.3 (xx|yyy) ——或
匹配xx 或 yyy
4. 边界
4.1 ^ex——行首
^ex :匹配ex出现在行首
4.2 $——行尾
tion$:匹配tion出现在行尾
4.3 \b——单词边界
指单词和空格间的位置。例如,“er\b
”可以匹配“never
”中的“er
”,但不能匹配“verb
”中的“er
”。
4.4 \B——非单词边界
“er\B
”能匹配“verb
”中的“er
”,但不能匹配“never
”中的“er
”。
5. \ ——转义符
将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。
如:\n ——换行
\* —— * , \+——+ \?——? 这样就使这些特殊字符没有了特殊作用
6. 特殊字符
\cx | 匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的“c ”字符。 |
---|---|
\d | 匹配一个数字字符。等价于[0-9]。 |
\D | 匹配一个非数字字符。等价于[^0-9]。 |
\f | 匹配一个换页符。等价于\x0c和\cL。 |
\n | 匹配一个换行符。等价于\x0a和\cJ。 |
\r | 匹配一个回车符。等价于\x0d和\cM。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等价于[^ \f\n\r\t\v]。 |
\t | 匹配一个制表符。等价于\x09和\cI。 |
\v | 匹配一个垂直制表符。等价于\x0b和\cK。 |
\w | 匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_] ”。 |
\W | 匹配任何非单词字符。等价于“[^A-Za-z0-9_] ”。 |
\xn | 匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,“\x41 ”匹配“A ”。“\x041 ”则等价于“\x04&1 ”。正则表达式中可以使用ASCII编码。. |
\num | 向后引用(back-reference)一个子字符串(substring),该子字符串与正则表达式的第num个用括号围起来的子表达式(subexpression)匹配。其中num是从1开始的正整数,其上限可能是99。例如:“(.)\1 ”匹配两个连续的相同字符。 |
\n | 标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为一个八进制转义值。 |
\nm | 标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式,则nm为向后引用。如果\nm之前至少有n个获取,则n为一个后跟文字m的向后引用。如果前面的条件都不满足,若n和m均为八进制数字(0-7),则\nm将匹配八进制转义值nm。 |
\nml | 如果n为八进制数字(0-3),且m和l均为八进制数字(0-7),则匹配八进制转义值nml。 |
\un | 匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。例如,\u00A9匹配版权符号(©)。 |
7. 参考
正则表达式 - 维基百科,自由的百科全书
Java 正则表达式详解_正则表达式_脚本之家