处理大文本格式化去除HTML里面的注释标签解决办法

最新推荐文章于 2022-12-30 14:06:16 发布

道阻且长-行则将至-行而不辍-未来可期

最新推荐文章于 2022-12-30 14:06:16 发布

阅读量225

点赞数

分类专栏： 2022年-目前工作文章标签： html 前端正则表达式

我爱你，一起加油！

本文链接：https://blog.csdn.net/m0_59252007/article/details/125349188

版权

2022年-目前工作专栏收录该内容

37 篇文章 12 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了在处理爬虫抓取的HTML文本时，如何去除HTML标签及注释标签的问题。面对正则表达式匹配后注释标签失效导致的格式化问题，作者提供了一种优化的Java工具类代码及其测试验证，确保能有效提取纯文本内容。

摘要由CSDN通过智能技术生成

目录

最终优化后的java工具类代码如下

测试方法得到的结果验证下

前言

需求详情是这样的，针对爬虫抓取到的文本，把里面的HTML格式标签剔除掉，然后把里面的注释的标签也去除掉，只要抓取到文本的纯文本格式化，使用java类进行处理，然后得到想要的文本内容即可，这样的结果不是简单地java工具类处理就可以的，我这边使用了一个Java的工具类，然后遇到了一个极其罕见的问题，问题1就是里面的注释标签，使用HTML的正则表达式抓取到之后，但是注释标签在剔除掉HTML的标签之后，就已经失效了。所以每一次会出现这个情况就是HTML格式化处理之后，里面的注释显示了出来，无法正常的去除，自己多想之后，然后想出来了解决办法！在这里分享一下！

问题描述详情如下：

正则表达式匹配到的HTML标签把注释标签也剔除了。导致注释标签在处理的时候出现了问题！

测试的文本抓取到的HTML全文如下：

了解本专栏

超级会员免费看

道阻且长-行则将至-行而不辍-未来可期

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

道阻且长-行则将至-行而不辍-未来可期 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。