正则表达式处理BT的html嵌套问题

在博问里面求教大神,把问题搞定。在此做个记录备份,也给碰到类似问题的园友提供解决思路。

  简化的业务场景就是,在页面html标签中的属性中嵌套了html标签,怎么用用正则表达式过滤闭合的html标签(<span>匹配</span>,),处理标签外的文字。如下图中的span嵌套span。

 

图1

 

具体的正则表达式:<(\w+)([^<]*?(<\1>[\s\S]*?</\1>)?[^<]*?)?((?<!\1)?>[\s\S]*?</\1>|/>)。

总结自己的问题:

1、正则表达式只是用到才看下,临时抱佛脚不是每次都能解决问题的。

2、过于依赖在线正则表达式测试工具,应该在其他工具里试下结果。调试的时候Matches方法返回数组中每项也可以查看下。如图2。

 

图2

最后附上自己在博问中结帖的链接。

https://q.cnblogs.com/q/91682/

转载于:https://www.cnblogs.com/meng9527/p/6561038.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值