html片段提取纯文本

最新推荐文章于 2022-03-14 16:55:50 发布

自转的轮子

最新推荐文章于 2022-03-14 16:55:50 发布

阅读量676

点赞数

分类专栏： JAVA学习笔记文章标签： html

本文链接：https://blog.csdn.net/qq_27818157/article/details/52223622

版权

JAVA学习笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

public  String html2Str(String html) {
	      try {
	            //html = nvl(html);
	            Parser parser = Parser.createParser(html, "utf-8");
	            TextExtractingVisitor visitor = new TextExtractingVisitor();
	            parser.visitAllNodesWith(visitor);
	            return visitor.getExtractedText();
	        } catch (Exception ex) {
	         return null;
	     }
	   }

上面代码可将html字符串转成纯文本，但是有一些字符不能过滤如 \n \t 等

text= String.replaceAll("\\s*|\t|\r|\n","");

加上此代码即可

上面代码需要导入的jar包有

1.filterbuilder.jar

2.htmllexer.jar

3.htmlparser.jar

4.sitecapturer.jar

5.thumbelina.jar