/*
* 获取纯文本信息
*/
public static String getPlainText(String str) {
try {
Parser parser = new Parser();
parser.setInputHTML(str);
StringBean sb = new StringBean();
// 设置不需要得到页面所包含的链接信息
sb.setLinks(false);
// 设置将不间断空格由正规空格所替代
sb.setReplaceNonBreakingSpaces(true);
// 设置将一序列空格由一个单一空格所代替
sb.setCollapse(true);
parser.visitAllNodesWith(sb);
str = sb.getStrings();
} catch (ParserException e) {
e.printStackTrace();
}
return str;
}
HtmlParser抓取正文时去掉其中的js
最新推荐文章于 2017-01-18 11:28:03 发布