提取HTML中的文本信息

import java.io.*;
import org.htmlparser.filters.*;
import org.htmlparser.*;
import org.htmlparser.nodes.*;
import org.htmlparser.util.*;
import org.htmlparser.visitors.*;

public class showText{		

public static void showText(String result) throws Exception
{
	Parser parser;
	NodeList nodelist;
	parser=Parser.createParser(result, "GB2312");
	NodeFilter textFilter=new NodeClassFilter(TextNode.class);
	OrFilter lastFilter=new OrFilter();
	lastFilter.setPredicates(new NodeFilter[]{textFilter});
	nodelist=parser.parse(lastFilter);
	Node[] nodes=nodelist.toNodeArray();
	String line="";
	
	for(int i=0;i<nodes.length;i++)
	{
		Node node=nodes[i];
		if(node instanceof TextNode)
		{
			TextNode textnode=(TextNode)node;
			line=textnode.getText();
			//System.out.println(line);
		}
		System.out.println(line);
	}
}


}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值