正则表达式
1、什么是正则表达式
正则表达式是一种特殊的字符串模式,用于匹配一组字符串,就好比用模具做产品,而正则就是这个模具,定义一种规则去匹配符合规则的字符。
正则使用工具: http://regexper.com
正则入门:https://www.jb51.net/tools/zhengze.html
2、正则字符简单介绍
2.1 元字符介绍
"^" :^会匹配行或者字符串的起始位置,有时还会匹配整个文档的起始位置。
**" " ∗ ∗ : "** : "∗∗:会匹配行或字符串的结尾。
"\b" :不会消耗任何字符只匹配一个位置,常用于匹配单词边界。 如 我想从字符串中"This is Regex"匹配单独的单词 “is” 正则就要写成 “\bis\b”
\b 不会匹配is 两边的字符,但它会识别is 两边是否为单词的边界
"\d": 匹配数字,
例如要匹配一个固定格式的电话号码以0开头前4位后7位,如0737-5686123 正则:^0\d\d\d-\d\d\d\d\d\d\d$ 这里只是为了介绍"\d"字符,实际上有更好的写法会在 下面介绍。
"\w":匹配字母,数字,下划线.
例如我要匹配"a2345BCD__TTz" 正则:"\w+" 这里的"+"字符为一个量词指重复的次数,稍后会详细介绍。
"\s":匹配空格
例如字符 “a b c” 正则:"\w\s\w\s\w" 一个字符后跟一个空格,如有字符间有多个空格直接把"\s" 写成 “\s+” 让空格重复
".":匹配除了换行符以外的任何字符
这个算是"\w"的加强版了,"\w"不能匹配 空格 ,如果把字符串加上空格用"\w"就受限了,看下用 “.“是如何匹配字符"a23 4 5 B C D__TTz” 正则:”.+"
"[abc]": 字符组 ,匹配包含括号内元素的字符
这个比较简单了只匹配括号内存在的字符,还可以写成[a-z]匹配a至z的所以字母就等于可以用来控制只能输入英文了。
2.2 几种反义
写法很简单改成大写就行了,意思与原来的相反,这里就不举例子了
“\W” 匹配任意不是字母,数字,下划线 的字符
"\S" 匹配任意不是空白符的字符
"\D" 匹配任意非数字的字符
"\B" 匹配不是单词开头或结束的位置
"[^abc]" 匹配除了abc以外的任意字符
2.3 量词
?: 匹配前导字符0次或一次。事实上是表示前导字符是可选的。
+:匹配前导字符1次或多次。
*: 匹配前导字符0次或多次。
{min, max}: 匹配前导字符min次到max次。min和max都是非负整数。如果有逗号而max被省略了,则表示max没有限制;如果逗号和max都被省略了,则表示重复min次。
默认情况下,这个几个特殊字符都是贪婪的,也就是说,它会根据前导字符去匹配尽可能多的内容。
在以上四种表达式后加上一个问号(?)则可以开启懒惰模式,在该模式下,正则引擎尽可能少的重复匹配字符,匹配成功之后它会继续匹配剩余的字符串。
如果在以上四种表达式后加上一个加号(+),则会开启独占模式。同贪婪模式一样,独占模式一样会匹配最长。不过在独占模式下,正则表达式尽可能长地去匹配字符串,一旦匹配不成功就会结束匹配而不会回溯。
贪婪 数量词 | |
---|---|
X? | X,一次或一次也没有 |
X* | X,零次或多次 |
X+ | X,一次或多次 |
X{n} | X,恰好 n 次 |
X{n,} | X,至少 n 次 |
X{n,m} | X,至少 n 次,但是不超过 m 次 |
懒惰 数量词 | |
---|---|
X?? | X,一次或一次也没有 |
X*? | X,零次或多次 |
X+? | X,一次或多次 |
X{n}? | X,恰好 n 次 |
X{n,}? | X,至少 n 次 |
X{n,m}? | X,至少 n 次,但是不超过 m 次 |
独占 数量词 | |
---|---|
X?+ | X,一次或一次也没有 |
X*+ | X,零次或多次 |
X++ | X,一次或多次 |
X{n}+ | X,恰好 n 次 |
X{n,}+ | X,至少 n 次 |
X{n,m}+ | X,至少 n 次,但是不超过 m 次 |
2.4 正则表达式直接量字符
- \o:NULL字符(
\u0000
) - \t:制表符,即Tab(
\u0009
) - \n:换行符(
\u000A
) - \v:垂直制表符(
\u000B
) - \f:换页符(
\u000C
) - \r:回车符(
\u000D
) - \xnn:由十六进制数nn指定的拉丁字符,例如,\x0A等价于\n
- \uxxxx:由十六进制数xxxx指定的Unicode字符,例如\u0009等价于\t
- \cX:控制字符^X,例如,\cJ等价于换行符\n
2.5 正则表达式修饰符
- i:执行对大小写不敏感的匹配(
ignoreCase
) - g:执行全局匹配(
global
) - m:执行多行匹配(
multiline
)
3、JavaScript RegExp类介绍
3.1 JS 如何创建正则表达式对象?
JavaScript 中的正则表达式用 RegExp 对象表示,有两种创建方式。
var str = 'I love js';
var pattern = /js/;
// test exec
console.log(pattern.test(str)); //true
console.log(pattern.exec(str)); //"js"
var str = 'I love js';
var pattern = new RegExp('js');
console.log(pattern.test(str)); //true
console.log(pattern.exec(str)); //"js"
3.2 正则表达式RegExp对象
每个 RegExp 对象都有5个属性:
- source 是一个只读字符串,包含正则表达式的文本。
- global 是一个只读布尔值,用以说明这个正则表达式是否带有修饰符g。
- ignoreCase 是一个只读布尔值,用以说明这个正则表达式是否带有修饰符i。
- multiline 是一个只读布尔值,用以说明这个正则表达式是否带有修饰符。
- lastIndex 是一个可读可写的整数,如果匹配模式带有g修饰符,这个属性存储整个字符串中下一次检索的开始位置。
示例:
var str = 'js js js';
var pattern = new RegExp('\\b', 'i');
console.log(pattern.ignoreCase); //true
console.log(pattern.global); //false
console.log(pattern.multiline); //false
console.log(pattern.source); //\b
console.log(pattern.lastIndex); //0
var str = 'js js js';
var pattern = /js/;
console.log(pattern.lastIndex); //0
pattern.test(str);
console.log(pattern.lastIndex); //0
pattern.test(str);
console.log(pattern.lastIndex); //0
pattern.test(str);
console.log(pattern.lastIndex); //0
pattern.test(str);
console.log(pattern.lastIndex); //0
pattern.test(str);
console.log(pattern.lastIndex); //0
var str = 'js js js';
var pattern = /js/g;
console.log(pattern.lastIndex); //0
pattern.test(str);
console.log(pattern.lastIndex); //2
pattern.test(str);
console.log(pattern.lastIndex); //5
pattern.test(str);
console.log(pattern.lastIndex); //8
pattern.test(str);
console.log(pattern.lastIndex); //0
pattern.test(str);
console.log(pattern.lastIndex); //2
RegExp对象有两个方法:
- exec():参数是一个字符串,功能与 match()相似,exec() 方法对一个指定的字符串执行一个正则表达式,也就是在一个字符串中执行匹配检索。如果没有找到任何匹配就返回 null,找到了匹配就返回一个数组,这个数组的第一个元素包含的是与正则表达式相匹配的字符串,余下的元素是与圆括号内的子表达式相匹配的子串,不论正则表达式是否有修饰符g,都会返回一样的数组。当调用 exec() 的正则表达式对象具有修饰符g时,它将把当前正则表达式对象的 lastIndex 属性设置为紧挨着匹配子串的字符位置。当同一个正则表达式第二次调用 exec()时,它将从 lastIndex 属性所指示的字符串处开始检索,如果 exec() 没有发现任何匹配结果,它会将 lastIndex 重置为0。
示例:
var str = 'I love js';
var pattern = /js/;
console.log(pattern.exec(str)); //"js"
- test():参数是一个字符串,用 test() 对某个字符串进行检查,如果包含正则表达式的一个匹配结果,则返回 true 否则返回 false。
示例:
var str = 'I love js';
var pattern = /js/;
console.log(pattern.test(str)); //true
断言
(?=pattern) 正向先行断言
代表字符串中的一个位置,紧接该位置之后的字符序列能够匹配pattern。
例如对”a regular expression”这个字符串,要想匹配regular中的re,但不能匹配expression中的re,可以用”re(?=gular)”,该表达式限定了re右边的位置,这个位置之后是gular,但并不消耗gular这些字符,将表达式改为”re(?=gular).”,将会匹配reg,元字符.匹配了g,括号这一砣匹配了e和g之间的位置。
(?!pattern) 负向先行断言
代表字符串中的一个位置,紧接该位置之后的字符序列不能匹配pattern。
例如对”regex represents regular expression”这个字符串,要想匹配除regex和regular之外的re,可以用”re(?!g)”,该表达式限定了re右边的位置,这个位置后面不是字符g。负向和正向的区别,就在于该位置之后的字符能否匹配括号中的表达式。
(?<=pattern) 正向后行断言
代表字符串中的一个位置,紧接该位置之前的字符序列能够匹配pattern。
例如对”regex represents regular expression”这个字符串,有4个单词,要想匹配单词内部的re,但不匹配单词开头的re,可以用”(?<=\w)re”,单词内部的re,在re前面应该是一个单词字符。之所以叫后行断言,是因为正则表达式引擎在匹配字符串和表达式时,是从前向后逐个扫描字符串中的字符,并判断是否与表达式符合,当在表达式中遇到该断言时,正则表达式引擎需要往字符串前端检测已扫描过的字符,相对于扫描方向是向后的。
(?<!pattern)
代表字符串中的一个位置,紧接该位置之前的字符序列不能匹配pattern。
例如对”regex represents regular expression”这个字符串,要想匹配单词开头的re,可以用”(?<!\w)re”。单词开头的re,在本例中,也就是指不在单词内部的re,即re前面不是单词字符。当然也可以用”\bre”来匹配。
前瞻
正则表达式从头到尾的解析 文本尾部叫做【前】 文本头部叫做后
1:前瞻就是正则表达式匹配到规则时候;向前价查是否符合【断言】,后顾/后瞻方向相反
2:js不支持后顾
3:符合和不符合特定断言叫做肯定/正向匹配;和否定/负向匹配
正向匹配: 既要符合正则也要符合断言 exp(?=assert); exp规则部分(?=assert)断言部分.
- 例如 \w(?=\d) 匹配到\w 后 还要往后看看 是不是数字
负向匹配 exp(?!assert)
正向前瞻往后看断言,负向前瞻 往前看断言
反项引用
$1$2$3 捕获分组中的内容
忽略分组
不想捕获某个分组时候,在分前后面加上?:就可以了
例如:
(?:yyc) 不会捕获到yyc