HtmlParser抓取正文时去掉其中的js

最新推荐文章于 2017-01-18 11:28:03 发布

iteye_4026

最新推荐文章于 2017-01-18 11:28:03 发布

阅读量109

点赞数

分类专栏： Java

本文链接：https://blog.csdn.net/iteye_4026/article/details/82075437

版权

Java 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

/*
	 * 获取纯文本信息
	 */
	public static String getPlainText(String str) {
		try {
			Parser parser = new Parser();
			parser.setInputHTML(str);

			StringBean sb = new StringBean();
			// 设置不需要得到页面所包含的链接信息
			sb.setLinks(false);
			// 设置将不间断空格由正规空格所替代
			sb.setReplaceNonBreakingSpaces(true);
			// 设置将一序列空格由一个单一空格所代替
			sb.setCollapse(true);
			parser.visitAllNodesWith(sb);
			str = sb.getStrings();
		} catch (ParserException e) {
			e.printStackTrace();
		}
		return str;
	}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_4026

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HtmlParser抓取正文时去掉其中的js

[code="java"]/* * 获取纯文本信息 */ public static String getPlainText(String str) { try { Parser parser = new Parser(); parser.setInputHTML(str); StringBean sb = new StringBean();...
复制链接

扫一扫