网页解析

解析html文件,采用Jar包 htmlparser,filter组合应用。
1.获取新网页的链接。形如<a href ="xxx" target = "_blank">

点击(此处)折叠或打开

  1. Parser parser = Parser.createParser(all,"charest");//all为文件,charest为编码

  2. public String getlink(Parser parser) {
  3.         String link="";
  4.         try {
  5.             AndFilter andFilter = new AndFilter(new TagNameFilter("a"),new HasAttributeFilter("target", "_blank"));
  6.             NodeList nodeList = parser.extractAllNodesThatMatch(andFilter);
  7.             for (int i = 0; i < nodeList.size(); i++) {
  8.                 Node node = nodeList.elementAt(i);
  9.                                 if (!node.toPlainTextString().equals("")) {
  10.                     link+=node.toPlainTextString();
  11.                     link+="@";
  12.                 }
  13.             }
  14.         } catch (Exception e) {
  15.             // TODO: handle exception

  16.             return "";
  17.         }
  18.                 return link;
  19.     }

2.获取图片

点击(此处)折叠或打开

  1. public void pic(Parser parser,String num,String name,String category) {
  2.         String src="";
  3.         String alt="";
  4.         String datasrc = "";
  5.         try {
  6.             TagNameFilter tagNameFilter = new TagNameFilter("img");
  7.             NodeList nodeList=parser.extractAllNodesThatMatch(tagNameFilter);
  8.             //System.out.println(nodeList.size());

  9.             if (nodeList.size()>0) {
  10.                 for (int i = 0; i < nodeList.size(); i++) {
  11.                 Tag tagnode=(Tag)nodeList.elementAt(i);
  12.                 src = tagnode.getAttribute("src");
  13.                 //System.out.println("src :"+src+"e");

  14.                 alt = tagnode.getAttribute("alt");
  15.                 //System.out.println("alt :"+alt+"e");

  16.                 datasrc = tagnode.getAttribute("data-src");
  17.                 //System.out.println("data-src:"+datasrc+"e");

  18.                             }
  19.             }
  20.             
  21.         } catch (ParserException e) {
  22.             // TODO Auto-generated catch block

  23.             e.printStackTrace();
  24.             return ;
  25.         }
  26.                 parser.reset();
  27.     }


<script type=text/javascript charset=utf-8 src="http://static.bshare.cn/b/buttonLite.js#style=-1&uuid=&pophcol=3&lang=zh"></script> <script type=text/javascript charset=utf-8 src="http://static.bshare.cn/b/bshareC0.js"></script>
阅读(31) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~
评论热议
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值