HtmlPaser与StringEscapeUtils共舞抓取网页

用正则来匹配的确很强大,但如果是网页的话HtmlPaser更方便,由于抓下来的信息中文是unicode的,所以要用到apache的一个包,以下是代码:

import java.net.URL;
import org.apache.commons.lang3.StringEscapeUtils;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;




public class GetURLText {
	public void getText() throws Exception {
		String urlString="http://localhost:8080/TestXFace/TestHtmlPaser/ABC.jsp";
		URL url = new URL(urlString);
		Parser parser = new Parser(url.openConnection());
		parser.setEncoding("UTF-8");
		NodeFilter nodeFilter = new NodeClassFilter(TableTag.class);
		NodeList nodeList = parser.parse(nodeFilter);//得到table标签里所有的信息
		System.out.println(nodeList);
		for(int i=0;i<nodeList.size();i++){
			TableTag tableTag = (TableTag) nodeList.elementAt(i);
			TableRow[] rows = tableTag.getRows();
			for(TableRow row:rows){
			System.out.println("<tr>  :"+ row.toPlainTextString());
				TableColumn[] tableColumns = row.getColumns();
				for(TableColumn tableColumn :tableColumns){
					String string = tableColumn.toPlainTextString();
					string = StringEscapeUtils.escapeHtml3(string);//unicode2String 
					System.out.println("<td>  :"+string+"</td>");//得到<td>标签里的内容
				}
			}
		}
	}
	public static void main(String[] args) throws Exception {
		GetURLText getURLText = new GetURLText();
		getURLText.getText();
	}
}
 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值