正则表达式

正则表达式

1、什么是正则表达式

正则表达式是一种特殊的字符串模式,用于匹配一组字符串,就好比用模具做产品,而正则就是这个模具,定义一种规则去匹配符合规则的字符。

正则使用工具: http://regexper.com
正则入门:https://www.jb51.net/tools/zhengze.html

2、正则字符简单介绍

2.1 元字符介绍

"^" :^会匹配行或者字符串的起始位置,有时还会匹配整个文档的起始位置。

**" " ∗ ∗ : "** : "会匹配行或字符串的结尾。

"\b" :不会消耗任何字符只匹配一个位置,常用于匹配单词边界。 如 我想从字符串中"This is Regex"匹配单独的单词 “is” 正则就要写成 “\bis\b”

\b 不会匹配is 两边的字符,但它会识别is 两边是否为单词的边界

"\d": 匹配数字,

例如要匹配一个固定格式的电话号码以0开头前4位后7位,如0737-5686123 正则:^0\d\d\d-\d\d\d\d\d\d\d$ 这里只是为了介绍"\d"字符,实际上有更好的写法会在 下面介绍。

"\w":匹配字母,数字,下划线.

例如我要匹配"a2345BCD__TTz" 正则:"\w+" 这里的"+"字符为一个量词指重复的次数,稍后会详细介绍。

"\s":匹配空格

例如字符 “a b c” 正则:"\w\s\w\s\w" 一个字符后跟一个空格,如有字符间有多个空格直接把"\s" 写成 “\s+” 让空格重复

".":匹配除了换行符以外的任何字符

这个算是"\w"的加强版了,"\w"不能匹配 空格 ,如果把字符串加上空格用"\w"就受限了,看下用 “.“是如何匹配字符"a23 4 5 B C D__TTz” 正则:”.+"

"[abc]": 字符组 ,匹配包含括号内元素的字符

​ 这个比较简单了只匹配括号内存在的字符,还可以写成[a-z]匹配a至z的所以字母就等于可以用来控制只能输入英文了。

2.2 几种反义

写法很简单改成大写就行了,意思与原来的相反,这里就不举例子了

“\W” 匹配任意不是字母,数字,下划线 的字符

"\S" 匹配任意不是空白符的字符

"\D" 匹配任意非数字的字符

"\B" 匹配不是单词开头或结束的位置

"[^abc]"  匹配除了abc以外的任意字符

2.3 量词

?: 匹配前导字符0次或一次。事实上是表示前导字符是可选的。

​ +:匹配前导字符1次或多次。

​ *: 匹配前导字符0次或多次。

​ {min, max}: 匹配前导字符min次到max次。min和max都是非负整数。如果有逗号而max被省略了,则表示max没有限制;如果逗号和max都被省略了,则表示重复min次。

​ 默认情况下,这个几个特殊字符都是贪婪的,也就是说,它会根据前导字符去匹配尽可能多的内容。

​ 在以上四种表达式后加上一个问号(?)则可以开启懒惰模式,在该模式下,正则引擎尽可能少的重复匹配字符,匹配成功之后它会继续匹配剩余的字符串。

​ 如果在以上四种表达式后加上一个加号(+),则会开启独占模式。同贪婪模式一样,独占模式一样会匹配最长。不过在独占模式下,正则表达式尽可能长地去匹配字符串,一旦匹配不成功就会结束匹配而不会回溯。

贪婪 数量词
X?X,一次或一次也没有
X*X,零次或多次
X+X,一次或多次
X{n}X,恰好 n 次
X{n,}X,至少 n 次
X{n,m}X,至少 n 次,但是不超过 m 次
懒惰 数量词
X??X,一次或一次也没有
X*?X,零次或多次
X+?X,一次或多次
X{n}?X,恰好 n 次
X{n,}?X,至少 n 次
X{n,m}?X,至少 n 次,但是不超过 m 次
独占 数量词
X?+X,一次或一次也没有
X*+X,零次或多次
X++X,一次或多次
X{n}+X,恰好 n 次
X{n,}+X,至少 n 次
X{n,m}+X,至少 n 次,但是不超过 m 次

2.4 正则表达式直接量字符

  • \o:NULL字符(\u0000
  • \t:制表符,即Tab(\u0009
  • \n:换行符(\u000A
  • \v:垂直制表符(\u000B
  • \f:换页符(\u000C
  • \r:回车符(\u000D
  • \xnn:由十六进制数nn指定的拉丁字符,例如,\x0A等价于\n
  • \uxxxx:由十六进制数xxxx指定的Unicode字符,例如\u0009等价于\t
  • \cX:控制字符^X,例如,\cJ等价于换行符\n

2.5 正则表达式修饰符

  • i:执行对大小写不敏感的匹配(ignoreCase
  • g:执行全局匹配(global
  • m:执行多行匹配(multiline

3、JavaScript RegExp类介绍

3.1 JS 如何创建正则表达式对象?

​ JavaScript 中的正则表达式用 RegExp 对象表示,有两种创建方式。

  • 通过直接量定义(隐式创建

var str = 'I love js';
var pattern = /js/;
// test exec
console.log(pattern.test(str));     //true
console.log(pattern.exec(str));     //"js"
  • 通过构造函数定义(显式创建

var str = 'I love js';
var pattern = new RegExp('js');
console.log(pattern.test(str));     //true
console.log(pattern.exec(str));     //"js"

3.2 正则表达式RegExp对象

每个 RegExp 对象都有5个属性:

  1. source 是一个只读字符串,包含正则表达式的文本。
  2. global 是一个只读布尔值,用以说明这个正则表达式是否带有修饰符g。
  3. ignoreCase 是一个只读布尔值,用以说明这个正则表达式是否带有修饰符i。
  4. multiline 是一个只读布尔值,用以说明这个正则表达式是否带有修饰符。
  5. lastIndex 是一个可读可写的整数,如果匹配模式带有g修饰符,这个属性存储整个字符串中下一次检索的开始位置。
    示例:
var str = 'js js js';
var pattern = new RegExp('\\b', 'i');
console.log(pattern.ignoreCase);   //true
console.log(pattern.global);       //false
console.log(pattern.multiline);    //false
console.log(pattern.source);       //\b
console.log(pattern.lastIndex);    //0

var str = 'js js js';
var pattern = /js/;
console.log(pattern.lastIndex);    //0
pattern.test(str);
console.log(pattern.lastIndex);    //0
pattern.test(str);
console.log(pattern.lastIndex);    //0
pattern.test(str);
console.log(pattern.lastIndex);    //0
pattern.test(str);
console.log(pattern.lastIndex);    //0
pattern.test(str);
console.log(pattern.lastIndex);    //0

var str = 'js js js';
var pattern = /js/g;
console.log(pattern.lastIndex);    //0
pattern.test(str);
console.log(pattern.lastIndex);    //2
pattern.test(str);
console.log(pattern.lastIndex);    //5
pattern.test(str);
console.log(pattern.lastIndex);    //8
pattern.test(str);
console.log(pattern.lastIndex);    //0
pattern.test(str);
console.log(pattern.lastIndex);    //2

RegExp对象有两个方法:

  1. exec():参数是一个字符串,功能与 match()相似,exec() 方法对一个指定的字符串执行一个正则表达式,也就是在一个字符串中执行匹配检索。如果没有找到任何匹配就返回 null,找到了匹配就返回一个数组,这个数组的第一个元素包含的是与正则表达式相匹配的字符串,余下的元素是与圆括号内的子表达式相匹配的子串,不论正则表达式是否有修饰符g,都会返回一样的数组。当调用 exec() 的正则表达式对象具有修饰符g时,它将把当前正则表达式对象的 lastIndex 属性设置为紧挨着匹配子串的字符位置。当同一个正则表达式第二次调用 exec()时,它将从 lastIndex 属性所指示的字符串处开始检索,如果 exec() 没有发现任何匹配结果,它会将 lastIndex 重置为0。
    示例:
var str = 'I love js';
var pattern = /js/;
console.log(pattern.exec(str));     //"js"
  1. test():参数是一个字符串,用 test() 对某个字符串进行检查,如果包含正则表达式的一个匹配结果,则返回 true 否则返回 false。
    示例:
var str = 'I love js';
var pattern = /js/;
console.log(pattern.test(str));     //true
断言

(?=pattern) 正向先行断言
代表字符串中的一个位置,紧接该位置之后的字符序列能够匹配pattern。
例如对”a regular expression”这个字符串,要想匹配regular中的re,但不能匹配expression中的re,可以用”re(?=gular)”,该表达式限定了re右边的位置,这个位置之后是gular,但并不消耗gular这些字符,将表达式改为”re(?=gular).”,将会匹配reg,元字符.匹配了g,括号这一砣匹配了e和g之间的位置。

(?!pattern) 负向先行断言
代表字符串中的一个位置,紧接该位置之后的字符序列不能匹配pattern。
例如对”regex represents regular expression”这个字符串,要想匹配除regex和regular之外的re,可以用”re(?!g)”,该表达式限定了re右边的位置,这个位置后面不是字符g。负向和正向的区别,就在于该位置之后的字符能否匹配括号中的表达式。

(?<=pattern) 正向后行断言
代表字符串中的一个位置,紧接该位置之前的字符序列能够匹配pattern。
例如对”regex represents regular expression”这个字符串,有4个单词,要想匹配单词内部的re,但不匹配单词开头的re,可以用”(?<=\w)re”,单词内部的re,在re前面应该是一个单词字符。之所以叫后行断言,是因为正则表达式引擎在匹配字符串和表达式时,是从前向后逐个扫描字符串中的字符,并判断是否与表达式符合,当在表达式中遇到该断言时,正则表达式引擎需要往字符串前端检测已扫描过的字符,相对于扫描方向是向后的。

(?<!pattern)
代表字符串中的一个位置,紧接该位置之前的字符序列不能匹配pattern。
例如对”regex represents regular expression”这个字符串,要想匹配单词开头的re,可以用”(?<!\w)re”。单词开头的re,在本例中,也就是指不在单词内部的re,即re前面不是单词字符。当然也可以用”\bre”来匹配。

前瞻

正则表达式从头到尾的解析 文本尾部叫做【前】 文本头部叫做后
1:前瞻就是正则表达式匹配到规则时候;向前价查是否符合【断言】,后顾/后瞻方向相反
2:js不支持后顾
3:符合和不符合特定断言叫做肯定/正向匹配;和否定/负向匹配
正向匹配: 既要符合正则也要符合断言 exp(?=assert); exp规则部分(?=assert)断言部分.

  • 例如 \w(?=\d) 匹配到\w 后 还要往后看看 是不是数字

负向匹配 exp(?!assert)

正向前瞻往后看断言,负向前瞻 往前看断言

反项引用

$1$2$3 捕获分组中的内容

忽略分组

不想捕获某个分组时候,在分前后面加上?:就可以了
例如:
(?:yyc) 不会捕获到yyc

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值