htmlparser使用2

import java.net.*;
import java.io.*;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
 
public class Test {
public static void main(String[] args) throws Exception {
// TODO Auto-generated method stub
test5(readNetFile());// 当然这里可以写成一个链接地址比如将html代替为"http://www.baidu.com"
}
 
public static String readNetFile() {
// System.out
// .println("-------------------------读取网页文件开始---------------------");
URL url = null;
try {
url = new URL(
"http://www.dailyfx.com.hk/calendar/index.php?date=2011-02-14");
} catch (MalformedURLException ex2) {
ex2.printStackTrace();
}
URLConnection conn = null;
BufferedReader br = null;
try {
conn = url.openConnection();
br = new BufferedReader(new InputStreamReader(
conn.getInputStream(), "utf-8"));
} catch (IOException ex1) {
ex1.printStackTrace();
}
 
String temp = null;
StringBuffer sb = new StringBuffer();
try {
temp = br.readLine();
while (temp != null) {
sb.append(temp + "\n");
temp = br.readLine();
}
} catch (IOException ex) {
ex.printStackTrace();
}
// System.out.println(sb.toString());
// System.out
// .println("-------------------------读取网页文件结束---------------------");
return sb.toString();
}
 
// static String html = "http://www.baidu.com";
 
public static void test5(String resource) throws Exception {
Parser myParser = new Parser(resource);
// Parser parser = new Parser(content);
// 设置编码
myParser.setEncoding("utf-8");
// String filterStr = "table";//这里析取得是标签为table的元素
String filterStr = "table";
NodeFilter filter = new TagNameFilter(filterStr);// 过滤这个标签
NodeList tableList = myParser.extractAllNodesThatMatch(filter);// 抽取所有table列表
 
// 只需要读取最后一个表格
for (int i = tableList.size() - 1; i < tableList.size(); i++) {
TableTag table = (TableTag) tableList.elementAt(i);
// 取得表中的行集
TableRow[] rows = table.getRows();
// 遍历每行
for (int r = 0; r < rows.length; r++) {
TableRow tr = rows[r];
TableColumn[] td = tr.getColumns();
// 行中的列
for (int c = 0; c < td.length; c++) {
System.out.print(td[c].toPlainTextString() + " ");
}
System.out.println();
 
}
 
}
}
}

转载于:https://www.cnblogs.com/licomeback/articles/3091044.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值