正则表达式是记录文本规则的代码,常用于文本匹配、文本替换及输入验证。正则表达式由两种基本字符类型组成:原义(正常)文本字符和元字符,然而,元字符是针对单个字符匹配的,要想要同时匹配多个字符的话,还需要借助限定符;下面介绍一些常见的元字符、限定符以及相关概念。
基本概念
1、常见元字符及限定符
元字符 |
说明 |
. |
匹配除 \n 以外的任何字符(注意元字符是小数点) |
[abcde] |
匹配 abcde 之中的任意一个字符 |
[a-h] |
匹配 a 到 h 之间的任意一个字符 |
[^fgh] |
不与 fgh 之中的任意一个字符匹配 |
\w |
匹配大小写英文字符及数字 0 到 9 之间的任意一个及下划线,相当于 [a-zA-Z0-9_] |
\W |
不匹配大小写英文字符及数字 0 到 9 之间的任意一个,相当于 [^a-zA-Z0-9_] |
\s |
匹配任何空白字符,相当于 [ \f\n\r\t\v] |
\S |
匹配任何非空白字符,相当于 [^\s] |
\d |
匹配任何 0 到 9 之间的单个数字,相当于 [0-9] |
\D |
不匹配任何 0 到 9 之间的单个数字,相当于 [^0-9] |
[\u4e00-\u9fa5] |
匹配任意单个汉字(这里用的是 Unicode 编码表示汉字的 ) |
限定符 |
说明 |
* |
匹配 0 到多个元字符,相当于 {0,} |
? |
匹配 0 到 1 个元字符,相当于 {0,1} |
{n} |
匹配 n 个元字符 |
{n,} |
匹配至少 n 个元字符 |
{n,m} |
匹配 n |