jsoup过滤特殊字符

最新推荐文章于 2024-08-04 11:37:41 发布

fangqun663775

最新推荐文章于 2024-08-04 11:37:41 发布

阅读量4.1k

点赞数

分类专栏： Java 文章标签： jsoup 遍历 html

本文链接：https://blog.csdn.net/fangqun663775/article/details/9449479

版权

Java 专栏收录该内容

71 篇文章 0 订阅

订阅专栏

最近我在做一个项目时，要展示一个网站摘要，但是出现了一些乱七八糟的代码，经过考究原来是特殊字符未进行过滤所导致的

后来我想到用jsoup来过滤，需要导入的jar包是jsoup-1.7.2.jar

该代码如下：

@Override
public String filterContent(final String content) {
final String text=content;
Document doc=Jsoup.parse(text.replaceAll("\"", ""));
return Jsoup.parse(doc.text()).text();
}

jsoup的介绍如下：

它可以解析和遍历一个html文档

如何解析一个HTML文档：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整。比如它可以处理：

1---没有关闭的标签 (比如： <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)

2---隐式标签 (比如. 它可以自动将 <td>Table data</td>包装成<table><tr><td>?)

3---创建可靠的文档结构（html标签包含head 和 body，在head只出现恰当的元素）