目录
前言
需求详情是这样的,针对爬虫抓取到的文本,把里面的HTML格式标签剔除掉,然后把里面的注释的标签也去除掉,只要抓取到文本的纯文本格式化,使用java类进行处理,然后得到想要的文本内容即可,这样的结果不是简单地java工具类处理就可以的,我这边使用了一个Java的工具类,然后遇到了一个极其罕见的问题,问题1就是里面的注释标签,使用HTML的正则表达式抓取到之后,但是注释标签在剔除掉HTML的标签之后,就已经失效了。所以每一次会出现这个情况就是HTML格式化处理之后,里面的注释显示了出来,无法正常的去除,自己多想之后,然后想出来了解决办法!在这里分享一下!
问题描述详情如下:
正则表达式匹配到的HTML标签把注释标签也剔除了。导致注释标签在处理的时候出现了问题!
测试的文本抓取到的HTML全文如下 :