正则获取嵌套html标签,正则匹配闭合HTML标签（支持嵌套）(示例代码)

最新推荐文章于 2024-07-28 14:13:07 发布

黄小秋

最新推荐文章于 2024-07-28 14:13:07 发布

阅读量365

点赞数

文章标签：正则获取嵌套html标签

OK，先确定我们要解决的问题——从一段Html文本中找出特定id的标签的innerHTML。

这里面最大的难点就是，Html标签是支持嵌套的，怎么能够找到指定标签相对应的闭合标签呢？

我们可以这样想，先匹配最前面的起始标签，假设是div吧(

我之所以能够这样去思考，是因为我了解过正则的特性，我知道正则中的平衡组能够实现我刚才说的“堆栈”操作。所以，如果我们要编写复杂正则表达式，需要对正则的一些高级特性至少有所了解，这样我们思考问题才有个方向。

================================

匹配任意闭合HTML标签的正则表达式：

[\w]+)[^>]*?>((?[^>]*>)|\k>(?)|.*?)*\k>

如果只想匹配div标签，可以使用下面的正则表达式：

div)[^>]*?>((?[^>]*>)|\k>(?)|.*?)*\k>

是的，你可以把div修改成任意你想要匹配的HTML标签

如果想同时匹配多个HTML标签，可以使用下面的正则表达式：

(div|span|h1))[^>]*?>((?[^>]*>)|\k>(?)|.*?)*\k>

你还可以继续添加更多要匹配的标签

如果想匹配包含ID的标签，可以使用下面的正则表达式：

[\w]+)[^>]*\s[iI][dD]=(?["‘]?)footer(?(Quote)\k)[^>]*?(/>|>((?[^>]*>)|\k>(?)|.*?)*\k>)

这个正则匹配任意id为footer的HTML标签

div测试

111

(1)

(2)

222

(3)

33di333

444

(4)

//div)[^>]*?>((?[^>]*>)|\k>(?)|.*?)*\k>

匹配结果：(1) 、(4)

//div)[^>]*?>((?[^>]*>)|\k>(?)|.*?|\s)*\k>

匹配结果：(1) 、(2)、(4)

//

[^

匹配结果：(1) 、(4)

//

[^]*

匹配结果：(1) 、(3)、(4)

//

[^]*(包含)[^]*

根据包还内容确定结果。

注意：正则前面变为

]*>可以匹配div里面的属性

工具下载：https://pan.baidu.com/s/1kVsaqwv

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。