正则表达式通常被用于判断语句中,用来检查某一字符串是否满足某一格式。正则表达式是否含有一些具有特殊意义字符的字符串,这些特殊字符串称为正则表达式的元字符。例如, "\\d" 表示数字 0~9 中任何一个, "\d" 就是元字符。正则表达式中元字符及其意义如下表所示:
表一:正则表达式中的元字符
元 字 符 | 正则表达式中的写法 | 意 义 |
. | . | 代表任意一个字符 |
\d | \\d | 代表 0~9 的任何一个数字 |
\D | \\D | 代表任何一个非数字字符 |
\s | \\s | 代表空白字符,如 '\t' 、'\n' |
\S | \\S | 代表非空白字符 |
\w | \\w | 代表可用作标识符的字符,但不包括 "$" |
\W | \\W | 代表不可用作标识符的字符 |
\p{Lower} | \\p{Lower} | 代表小写字母 a~z |
\p{Upper} | \\p{Upper} | 代表大写字母 A~M |
\p{ASCII} | \\p{ASCII} | ASCII 字符 |
\p{Alpha} | \\p{Alpha} | 字母字符 |
\p{Digit} | \\p{Digit} | 十进制数,即 0~9 |
\p{Alnum} | \\p{Alnum} | 数字或字母字符 |
\p{Punct} | \\p{Punct} | 标点符号: !"#$%&'()*+,-./:;<=>?[\]^_`{|}~ |
\p{Graph} | \\p{Graph} | 可见字符: [\p{Alnum}\p{Punct}] |
\p{Print} | \\p{Print} | 可打印字符: [\p{Graph}\x20}] |
\p{Blank} | \\p{Blank} | 空格或制表符: [\t] |
\p{Cntrl} | \\p{Cntrl} | 控制字符: [\x00-\x1F\x7F] |
说明:在正则表达式中"."代表任何一个字符,因此在正则表达式中如果想使用普通意义的点字符 ".",必须使用转义字符 "\"。
在正则表达式中可以使用方括号括起若干个字符来表示一个元字符,该字符可代表方括号中的任何一个字符。例如,
reg = "[abc]4", 这样字符串 a4、b4、c4 都是和正则表达式匹配的字符串。方括号元字符还可以为其他格式,如:
- [^456]: 代表4、5、6之外的任何字符
- [a-r]: 代表a~r中的任何一个字母
- [a-zA-Z] : 代表任意一个英文字母
- [a-e[g-z]]: 代表a~e,或g~z中的任何一个字母(并运算)
- [a-o&&[def]]: 代表字母d、e、f(交运算)
- [a-d&&[^bc]]: 代表字母a、d(差运算)
在正则表达式中允许使用限定修饰符来限定元字符出现的次数。例如,“A*”代表A可在字符串中出现0次或多次。限定修饰符的用法如下表所示:
表二:限定修饰符
限定修饰符 | 意 义 | 实 例 |
? | 0次或1次 | A? |
* | 0次或多次 | A* |
+ | 1次或多次 | A+ |
{n} | 正好出现n次 | A{2} |
{n,} | 至少出现n次 | A{2,} |
{n,m} | 出现n~m次 | A{2,6} |