一、应用场景
1.验证字符串格式
2.查找敏感词
二、规则
0.最简单的规则,就是一个关键词原文(正则表达式区分大小写)
1.字符集:[备选字列表],如[槽草艹]
匹配规则为多选一
匹配时,只要与[]中任意一个字符匹配,就算满足规则
1.1 字符集的组合:
关键词原文[字符集],如:我[槽草艹]
[字符集][字符集],如:[我卧][槽草艹]
1.2 字符集的简写
1)如果[ ]中部分备选字符连续(此处指Unicode码连续),可用-省略中间字符,如
匹配0-9:[0-9]
匹配1位小写字母:[a-z]
匹配1位大写字母:[A-Z]
匹配1位字母:[A-Za-z]
匹配一位字母或数字:[0-9A-Za-z]
匹配一位汉字:[\u4e00-\u9fa5]
例:匹配车牌号,规则如下
第一位:1位汉字
第二位:1位大写字母
第三位:·
后五位,每一位:都是一位大写字母或数字
[\u4e00-\u9fa5][A-Z]·[A-Z0-9][[A-Z0-9][[A-Z0-9][A-Z0-9][A-Z0-9]
例:匹配手机号
1[3-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]
2)预定义字符集
正则表达式语法为四种最常用的字符集定义了最简化写法,称为预定义字符集。
- 要匹配一位数字: \d 等效于 [0-9]
- 匹配一个非数字字符:\D
- 要匹配一位字母、数字或_: \w 等效于 [0-9A-Za-z_]
要匹配一位空字符:\s 可匹配 空格、制表符、回车、换行、Tab等空白
要匹配所有文字(通配符): .
例:匹配手机号
1[3-9]\d\d\d\d\d\d\d\d\d
2.数量词
专门规定一个字符集连续重复出现次数的规则
紧跟在其修饰的字符集后,默认修饰相邻的前一个字符集
例:匹配手机号
1[3-9]\d{9}
2.1 有明确数量边界的数量词 {}
- 字符集{n} 表示字符集必须重复n次,不能多也不能少
- 字符集{n,m} 表示字符集至少重复n次,最多重复m次,如: \d{4,6} 表示4到6位数字
- 字符集{n,} 表示字符集匹配的内容至少重复n次,多了不限,如:\d{6,} 表示6位以上数字
2.1 没有明确数量边界的数量词
- *可有可无,多了不限
- ?可有可无,最多一次
- +至少一次,多了不限
3.选择和分组
选择:是指在多个子规则中选其一匹配
分组:将多个子规则视为一组,再和分组外的规则匹配
如: 我(草|cao)
例:定义完整手机号规则
(+86|0086)?1[3-9]\d{9}
微信|weixin|w\s*x
4.指定匹配位置
- 字符串开头 ^
- 字符串结尾 $
- 单词边界 \b 可匹配:空格、标点符号、字符串开头结尾等可将一个单词与其他单词分割开的符号