public String html2Str(String html) {
try {
//html = nvl(html);
Parser parser = Parser.createParser(html, "utf-8");
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
return visitor.getExtractedText();
} catch (Exception ex) {
return null;
}
}
上面代码可将html字符串转成纯文本,但是有一些字符不能过滤如 \n \t 等
text= String.replaceAll("\\s*|\t|\r|\n","");
加上此代码即可
上面代码需要导入的jar包有
1.filterbuilder.jar
2.htmllexer.jar
3.htmlparser.jar
4.sitecapturer.jar
5.thumbelina.jar