Javascript--正则表达式工作原理, 回溯

版权声明:原创文章,如想转载,请注明原文网址,注明出处;否则,禁止转载;谢谢配合! https://blog.csdn.net/c_kite/article/details/77875328

关于javascript正则表达式的使用请参考我的这篇博客http://blog.csdn.net/c_kite/article/details/53959534

为了更高效的使用正则表达式, 首先要理解它的工作原理. 下面是一个正则表达式处理的基本步骤.

基本步骤

第一步: 编译

当你创建了一个正则表达式对象(使用正则直接量或RegExp构造函数), 浏览器会验证你的表达式, 然后把它转化为一个原生代码程序, 用于执行匹配工作. 如果你把正则对象赋值给一个变量, 可以避免重复执行这一步骤.

第二步: 设置起始位置

当正则类进入使用状态, 首先要确定目标字符串的起始搜索位置. 它是字符串的起始字符, 或者由正则表达式的lastIndex属性指定, 但是当它从第四步返回到这里时(由于尝试匹配失败), 此位置则在最后一次匹配的起始位置的下一个字符的位置上.

浏览器厂商优化正则表达式引擎的办法是, 通过提前决定跳过一些不必要的步骤, 来避免大量无意义的工作. 举个例子, 如果正则表达式由^开始, IE和Chrome通常会判断字符串的起始位置能否匹配, 如果匹配失败, 那么可以避免愚蠢地搜索后续位置. 另一个例子是匹配第三个字母是x的字符串, 一个聪明的做法是先找到x, 然后再将起始位置回退两个字符

第三步: 匹配每个正则表达式字元

一旦正则表达式知道开始位置, 它会逐个检查文本和正则表达式模式. 当一个特定的字元匹配失败时, 正则表达式会试着回溯到之前尝试匹配的位置上, 然后尝试其他可能的路径

第四步: 匹配成功或失败

如果在字符串当前位置发现了一个完全匹配, 那么正则表达式宣布匹配成功. 如果正则表达式所有的可能路径都没有匹配到, 正则表达式引擎会回退到第二步, 然后从下一个字符重新尝试. 当字符串的每一个字符(以及最后一个字符串后面的位置)都经历这个过程, 如果还没有成功匹配, 那么正则表达式就会宣布彻底匹配失败

回溯

当正则表达式匹配目标字符串时, 它从左到右逐个测试表达式的组成部分, 看是否能找到匹配项. 在遇到量词和分支时, 需要决策下一步如何处理. 如果遇到量词(诸如 *,+?{2, }), 正则表达式需决定何时尝试匹配更多字符; 如果遇到分支(来自|操作符)那么必须从可选项中选择一个尝试匹配.

每当正则表达式做类似的决定时, 如果有必要的话, 都会记录其他选择, 以备返回时使用. 如果当前选项匹配成功, 正则表达式继续扫描表达式, 如果其他部分也匹配成功, 那么匹配结束. 但是如果当前选项找不到匹配值, 或后面的部分匹配失败, 那么正则表达式会回溯到最后一个决策点, 然后在剩下的选项中选择一个. 这个过程会一直进行, 直到找到匹配项, 或者正则表达式中量词和分支选项的所以排列组合都尝试失败, 那么它将放弃匹配, 转而移动到字符串中的下一个字符, 再重复此过程.

例子

下面这个例子来源于”高性能JavaScript”中”重复与回溯”一节, 可以很好的理解回溯

var str = "<p>Para 1.</p>" + 
          "<img src='1.jpg'>" + 
          "<p>para 2.</p>" +
          "<div>Div.</div>";

/<p>.*<\/p>/i.test(str);//method 1
/<p>.*?<\/p>/i.test(str);//method 2

见下图
这里写图片描述

JavaScript--正则表达式

07-03

正则表达式(regular expression)对象包含一个正则表达式模式(pattern)。它具有用正则表达式模式去匹 rn配或代替一个串(string)中特定字符(或字符集合)的属性(properties)和方法(methods)。 rnrn正则表达式构造函数: new RegExp("pattern"[,"flags"]); 参数说明: pattern -- 一个正则表达式文本 flags -- 如果存在,将是以下值: g: 全局匹配 i: 忽略大小写 gi: 以上组合 rnrn在构造函数中,一些特殊字符需要进行转意(在特殊字符前加"\")。正则表达式中的特殊字符: 字符 含意 \ 转意,即通常在"\"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后/\b/,转意为 rnrn匹配一个单词的边界。 -或- 对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"\"后,/a\*/ rnrn将只匹配"a*"。 ^ 匹配一个输入或一行的开头,/^a/匹配"an A",而不匹配"An a" $ 匹配一个输入或一行的结尾,/a$/匹配"An a",而不匹配"an A" * 匹配前面元字符0次或多次,/ba*/将匹配b,ba,baa,baaa + 匹配前面元字符1次或多次,/ba*/将匹配ba,baa,baaa ? 匹配前面元字符0次或1次,/ba*/将匹配b,ba (x) 匹配x保存x在名为$1...$9的变量中 x|y 匹配x或y n 精确匹配n次 n, 匹配n次以上 n,m 匹配n-m次 [xyz] 字符集(character set),匹配这个集合中的任一一个字符(或元字符) [^xyz] 不匹配这个集合中的任何一个字符 [\b] 匹配一个退格符 \b 匹配一个单词的边界 \B 匹配一个单词的非边界 \cX 这儿,X是一个控制符,/\cM/匹配Ctrl-M \d 匹配一个字数字符,/\d/ = /[0-9]/ \D 匹配一个非字数字符,/\D/ = /[^0-9]/ \n 匹配一个换行符 \r 匹配一个回车符 \s 匹配一个空白字符,包括\n,\r,\f,\t,\v等 \S 匹配一个非空白字符,等于/[^\n\f\r\t\v]/ \t 匹配一个制表符 \v 匹配一个重直制表符 \w 匹配一个可以组成单词的字符(alphanumeric,这是我的意译,含数字),包括下划线,如[\w]匹配"$5.98" rnrn中的5,等于[a-zA-Z0-9] \W 匹配一个不可以组成单词的字符,如[\W]匹配"$5.98"中的$,等于[^a-zA-Z0-9]。 rnrn说了这么多了,我们来看一些正则表达式的实际应用的例子: HTML代码的屏蔽 function mask_HTMLCode(strInput) var myReg = /<(\w+)>/; return strInput.replace(myReg, "<$1>"); E-mail地址验证: function test_email(strEmail) var myReg = /^[_a-z0-9]+@([_a-z0-9]+\.)+[a-z0-9]2,3$/; if(myReg.test(strEmail)) return true; return false; rnrn rnrn正则表达式对象的属性及方法:   预定义的正则表达式拥有有以下静态属性:input, multiline, lastMatch, lastParen, leftContext, rnrnrightContext和$1到$9。其中input和multiline可以预设置。其他属性的值在执行过exec或test方法后被根据rnrn不同条件赋以不同的值。许多属性同时拥有长和短(perl风格)的两个名字,并且,这两个名字指向同一个值。(rnrnJavaScript模拟perl的正则表达式)rnrn正则表达式对象的属性: 属性 含义 $1...$9 如果它(们)存在,是匹配到的子串 $_ 参见input $* 参见multiline $& 参见lastMatch $+ 参见lastParen $` 参见leftContext $''          参见rightContext constructor    创建一个对象的一个特殊的函数原型 global       是否在整个串中匹配(bool型) ignoreCase     匹配时是否忽略大小写(bool型) input        被匹配的串 lastIndex     最后一次匹配的索引 lastParen     最后一个括号括起来的子串 leftContext    最近一次匹配以左的子串 multiline     是否进行多行匹配(bool型) prototype     允许附加属性给对象 rightContext    最近一次匹配以右的子串 source       正则表达式模式 lastIndex     最后一次匹配的索引 rnrn正则表达式对象的方法: 方法 含义 compile      正则表达式比较 exec        执行查找 test        进行匹配 toSource      返回特定对象的定义(literal rnrnrepresenting),其值可用来创建一个新的对象。重载Object.toSource方法得到的。 toString      返回特定对象的串。重载Object.toString方法得到的。 valueOf      返回特定对象的原始值。重载Object.valueOf方法得到 rnrn例子: 将输出"Smith, John" rnrn 论坛

没有更多推荐了,返回首页