正则表达式——详细讲解平衡组

本文深入讲解正则表达式中的平衡组,通过实例解析匹配过程,帮助读者理解如何利用平衡组匹配嵌套结构。介绍了正则工具Expresso,并探讨了平衡组在处理HTML标签等复杂情况中的应用。
摘要由CSDN通过智能技术生成

这篇文章适合你吗?

        要读懂这篇文章的精髓,你最好要有一点正则匹配原理的基础。比如“.*?”匹配文本内容“asp163”,稍懂正则表达式的人都知道可以匹配,但是你知道他的匹配过程吗?如果你不太清楚,那么下面的内容,对你来说可能不太适合,或许,看的太吃力且无法领悟平衡组的用法。因此,我建议你先看看:正则表达式NFA引擎的匹配原理(很抱歉,这篇文章还没完成,下面的具体内容也尚未完成,如果你看到这句话,说明我正在努力中。。。。想要整理一份易懂易描述的话,的确要费些时间,我准备出一个关于正则的教程,针对网上一些比较出名的技术文章——这些文章的确要有一点正则基础的人才能看的,因为他们似乎都忽略了细节的处理,而且图文的描述并不是理想,因此,我正在研究教程录制,有兴趣的朋友,期待一下吧,或者送给我鸡蛋,或者鲜花。我的确好长时间没吃鸡蛋了。谢谢)

一般正则教程中对平衡组的介绍

如果想要匹配可嵌套的层次性结构的话,就得使用平衡组了。举个例子吧,如何把“xx <aa <bbb> <bbb> aa> yy”这样的字符串里,最长的括号内的内容捕获出来?

这里需要用到以下的语法构造:

(?<group>) 把捕获的内容命名为group,并压入堆栈
(?<-group>) 从堆栈上弹出最后压入堆栈的名为group的捕获内容,如果堆栈本来为空,则本分组的匹配失败
(?(group)yes|no)
如果堆栈上存在以名为group的捕获内容的话,继续匹配yes部分的表达式,否则继续匹配no部分
(?!) 顺序否定环视,由于没有后缀表达式,试图匹配总是失败


如果你不是一个程序员(或者你是一个对堆栈的概念不熟的程序员),你就这样理解上面的三种语法吧:第一个就是在黑板上写一个(或再写一个)"group",第二个就是从黑板上擦掉一个"group",第三个就是看黑板上写的还有没有"group",如果有就继续匹配yes部分,否则就匹配no部分。

我们需要做的是每碰到了左括号,就在黑板上写一个"group",每碰到一个右括号,就擦掉一个,到了最后就看看黑板上还有没有-如果有那就证明左括号比右括号多,那匹配就应该失败(为了能看得更清楚一点,我用了(?'group')的语法):

 

<                 #最外层的左括号
  [^<>]*          #最外层的左括号后面的不是括号的内容
  (
    (
      (?'Open'<)  #碰到了左括号,在黑板上写一个"Open"
      [^<>>]
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值