深入正则表达式原理


一  、先说正则表达式(regular expression)的基础语法:元字符(metacharacters)和常用的正则表达式 

              1.   点号:. 匹配单个任意的字符(包括空格,换行符,回车符,制表符,换页符)。 

               2.  字符组 [  ] 匹配单个字符。如[abdcedf]也就是匹配[]中的任一个字符都能成功:匹配a成功匹配b也能成功,但不能匹配k这样没有在[]中出现的字符。 

               3.  排除型字符组  [^ ]  排除括号内列出的字符 如[^abcd]匹配e能够成功,匹配a就失败 

               4.   转义字符   \  通常是把元字符转化成普通的字符   通常用于转换如:在匹配.号时,正常情况下正则表达式引擎(会在后面谈到)会把.当做元字符来处理,但是加上\就可以把\.中的点号当做一个普通的字符来 处理。 

               5.   问号  ? 匹配一个或没有的字符 

                6.   星号 *   匹配多个或没有的字符 

                7.   加号 +  至少匹配一个字符或多个 

                8.  区间词{min,max} 匹配至少min次,和至多max次 

                9.    ^         匹配一行的开头 

                10.  $       匹配一行的结尾 

                11. \b        匹配单词的分界符 

                 12. {?=}   肯定顺序环视 

                 13.  {?!}    否定顺序环视 

                  14.  {?<=}   肯定逆向环视 

                   15.   {?<!}  否定逆向环视 

                    16.  {?:}    非捕获分组 

                    17.   {?>}    固化分组 

二、下面的正则表达式针对各种语言又有一些的变化: 

                       1.  \d   匹配任意的数字 

                        2.  \D 匹配任意的非数字 

                        3.  \w 匹配任意的小写字母,大写字母和数字和下划线_等于[a-zA-Z0-9_] 

                         4.  \W 匹配任意的非字母等于[^\s] 

                          5.  \s  匹配空字符如空格符,制表符,等 

                          6.  \S  匹配非空字符 

                         7.   \1\2 主要用于分组获得所分的组项,有时用的很方便哦。 

               还有就是一些常用的匹配表达式: 

                           1.   \n   匹配换行符 

                            2.  \A  匹配一行的开头与^一样的功能 

三、 上面的都是些简单的语法,我相信大多数都能懂,那我就讲一些难懂的内容吧: 

      (1) .正则表达式的核心是正则表达式引擎处理方式。一般正则表达式引擎分为两种:NFA和DFA。 

             但其中的NFA又有两个分支:传统的NFA和POSIX NFA 以下是各种语言所支持的引擎:

                       传统NFA:GNU Emacs、java、grep、less、more、.NET、Perl、PHP、Python、Ruby、sed等 

                       DFA        :awk、egrep、flex、MySQL、Procmail 

                       POSIX NFA:mawk、Mortice Kern等等。 

                       DFA/NFA混合引擎:GNU awk 、GNU grep/egrep、Tcl 

      (2).  正则表达式真正起作用是由于这些引擎来计算匹配。所以要想弄懂正则表达式的内部机制,就必须要明白你所熟悉的语言(如java,.net用的都是传统的 NFA)是采用的那种引擎。每一种语言都有这自己引擎,也就有自己的独特的规范和独特的匹配原则。所以正则表达式说采用的匹配结果也不一样。但不管是 DFA还是NFA他们又有一些共性原则如: 

                 1. 优先匹配最左端(最靠开头)的匹配结果。 

                  2.标准的匹配量词(*、+、?和{min,max})是匹配优先的。 

       1* 先来说第一条:最左端匹配结果: 

                   如果你用:cat来匹配下面的一句话: 

                          The dragging belly indicates that your cat is too fat. 

                   你本想匹配其中的cat,但是结果却不是,而是indicates中的cat。单词cat 是能够被匹配出来,但是indicates中的cat出现 的更早,所以就先匹配成功了。对于java程序员来说,他只关心是否能匹配而不关心在哪匹配。再来一个例子: 用:fat | cat | belly | your来匹配字符串上面的那一句话。结果会是什么呢? 

                   你认为会是最后的fat是吗?因为fat在 fat | cat | belly | your最前面,是吗?错:答案是belly,句中的belly,为什么呢?由于匹配是从句中的第一个字母T来一次匹配fat | cat | belly | your,中的所有选项,结果发现都不符合,就走到h来匹配,结果也不符合,就依次走下去,直到b字母,有一项符合,就是fat | cat | belly | your中的belly中的b,所以依次匹配发现成功了,所以就正确了。就不在向后面的单词匹配(这种结果只是在支持NFA的引擎中)。 

         2*  再来说说第二条:标准量词(*、+等)是匹配优先(greedy 贪婪的意思)的。从英文单词中,我们就可以发现一些原理。其实的确就是这样。 

                 用\b\w+s\b 来匹配包含s的字符串,如regexes,整个是能够比配成功的,你或许会认为它是正则表达式\w+匹配到xe结束然后让s来匹配最后的regexes中 的s,若你这样想,那就错了,其实\w+一次性的匹配到结束包括s在内都被它给匹配了,但后面有个s所以,她很不情愿的吐出一个s来,让后面的s来匹配。 这样使得匹配成功。这个+是不是很greedy啊?像欧也妮~葛朗台是吗?O(∩_∩)O哈哈~,对了,就是,这条规则很重要,对于正则表达式的优化很重 要。很多时候就是在这个基础上进行优化的。 

         下面就再来比较一下DFA和NFA的区别。 

          一般DFA速度较快,而NFA的控制能力较强。这两者各有千秋。 

        NFA引擎是表达式主导(有点困了,还是下次再写吧,那先留个目录,有助于下次写的:下面主要是NFA的工作原理,不同regular Expression 的流派,然后就是正则表达式的优化和调校,再者就是正则表达式的书写和案例经典例子的回放,最后是写我最爱的Java语言的正则表达式的应用)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值