正则表达式
正则表达式(英语:Regular Expression,在代码中常简写为regex、regexp或RE)使用单个字符串来描述、匹配一系列符合某个句法规则的字符串搜索模式。
搜索模式可用于文本搜索和文本替换。
javascript可以通过new RegExp() 构造正则表达式,也可以直接写
基本操作:
var str='<H1>正则表达式</H1>'
//i不区分大小写 g全局搜索不是找到一个就停止
var pattr=/<.*?>/ig
var pattr1=new RegExp('\\')
//test用于测试 存在返回true 不存在返回false
console.log(pattr1.test('gahogia'))//false
//exec() 方法检索字符串中的指定值。返回值是被找到的值。如果没有发现匹配,则返回 null。
console.log(pattr1.exec('gahogiae'))//[ 'e', index: 7, input: 'gahogiae', groups: undefined ]
//str.match()传入正则表达式返回匹配结果
console.log(str.match(pattr))
定位符
字符 | 描述 |
---|---|
^ | 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与 \n 或 \r 之后的位置匹配。 |
$ | 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与 \n 或 \r 之前的位置匹配。 |
\b | 匹配一个单词边界,即字与空格间的位置。 |
\B | 非单词边界匹配。 |
缓存
分组
正则表达式使用括号()进行分组,每一个分组都可以表示一个正则子表达式,例如以下规则匹配一个字母和一个数字/[A-z]\d/g
,使用分组/([A-z]\d)+/g
可以匹配字母和数字交替的子字符串.
缓存
对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中
,所捕获的每个子匹配都按照在正则表达式模式中从左到右出现的顺序存储。缓冲区编号从 1 开始,最多可存储 99 个捕获的子表达式。每个缓冲区都可以使用 \n 访问,其中 n 为一个标识特定缓冲区的一位或两位十进制数。
常用元字符
字符 | 描述 |
---|---|
\ | 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,‘n’ 匹配字符 “n”。’\n’ 匹配一个换行符。序列 ‘\’ 匹配 “” 而 “(” 则匹配 “(”。 |
. | 匹配除换行符(\n、\r)之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符,请使用像"(. |
\w | 匹配字母、数字、下划线。等价于’[A-Za-z0-9_]’ |
\d | 匹配数字 |
\b | 匹配空白字符(不是单指空格,制表符、回车等也算) |
\W | 匹配非(字母、数字、下划线) |
\D | 匹配非数字 |
\B | 匹配非空白字符 |
字符组匹配方式:
字符 | 描述 |
---|---|
[a-z] | 匹配a-z任意小写字母 |
[A-Z] | 匹配A-Z任意大写字母 |
[A-z] | 匹配任意字母(不区分大小写) |
[\u4e00-\u9fa5] | 匹配任意中文 |
[0-9] | 匹配0-9任意数字 |
a|b | 匹配a或者b |
[^abc] | 取非[]中字符的 |
常用量词(匹配次数)
字符 | 描述 |
---|---|
* | 匹配前面的子表达式零次或多次。例如,zo* 能匹配 “z” 以及 “zoo”。* 等价于{0,}。 |
+ | 匹配前面的子表达式一次或多次。例如,‘zo+’ 能匹配 “zo” 以及 “zoo”,但不能匹配 “z”。+ 等价于 {1,}。 |
? | 匹配前面的子表达式零次或一次。例如,“do(es)?” 可以匹配 “do” 或 “does” 。? 等价于 {0,1}。 |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,‘o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的两个 o。 |
{n,} | n 是一个非负整数。至少匹配n 次。例如,‘o{2,}’ 不能匹配 “Bob” 中的 ‘o’,但能匹配 “foooood” 中的所有 o。‘o{1,}’ 等价于 ‘o+’。‘o{0,}’ 则等价于 ‘o*’。 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,“o{1,3}” 将匹配 “fooooood” 中的前三个 o。‘o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。 |
前向匹配和后向匹配
有时需要匹配某个部分前边或后边的内容可以使用前向或者正向匹配
前向匹配:(?=w)
匹配字符w前边的内容
后向匹配(?<=w)
匹配字符w后边的内容
比如要匹配查询字符串可以使用正则/(?<=\?)/g
匹配问号后边的内容
贪婪模式
当字符 ? 紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 “oooo”,‘o+?’ 将匹配单个 “o”,而 ‘o+’ 将匹配所有 ‘o’。
什么是正则的贪婪模式?如有以下文本信息:
<H1>Chapter 1 - 正则表达式</H1>
-
贪婪模式匹配:尽可能多的匹配文字
-
非贪婪模式:匹配到符合要求的情况就会停止
匹配 <H1></H1>之间的全部内容
- 贪婪模式表达式 <.*> 匹配结果:
<H1>Chapter 1 - 正则表达式</H1>
- 非贪婪模式表达式 <.*?> 匹配结果:
<H1>
区分贪婪模式和非贪婪模式
在它们的后面加上一个?
就可以实现非贪婪或最小匹配,因为?
的匹配原则就是?
前面表达式匹配0次或一次