Jsoup-简单优雅的HTML dom解析工具

最近在做一个项目,需要在线从官网上下载选手的图片、名称信息,即做一个简易的网络爬虫,实时抓取最新官网选手数据。在网上搜了很多开源工具,一开始试的是webharvest,搞了一个上午,终于被其奇怪的配置文件搞怕了,我就是想链接下载一个在线的HTML页面,然后解析其DOM元素,没有更好的工具吗?

终于,在google上找到了Jsoup,其官网(http://jsoup.org/)上的demo神奇的只有两句话

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn ba");

   你没看错,他可以直接根据你给的链接返回dom,并像jquery那样按照元素类型、ID、CSS样式过滤你要找的dom元素,所有返回的元素都放在Elements中,每个Elements中的元素也可包含子元素,层级清晰。

为什么用Jsoup:

1-没有依赖包,是的,你只要下载(http://jsoup.org/download)jsoup包,放在lib引用中,或者你的团队用Maven,在pom文件中加入如下依赖

<dependency>
  <!-- jsoup HTML parser library @ http://jsoup.org/ -->
  <groupId>org.jsoup</groupId>
  <artifactId>jsoup</artifactId>
  <version>1.7.2</version>
</dependency>

2-语法简单,如果你用过CSS,抑或Jquery,或者在web前端操作过DOM,恭喜你,你会爱上Jsoup。

下面给出代码,大概逻辑是在线下载2013快乐男生66强资料,并显示他们的名称,图片链接地址。

public static void main(String[]args) throwsFileNotFoundException{

            try {

       Documentdocument = Jsoup.connect("http://www.hunantv.com/v/2013/2013superboy/xs/").get();

       Elementselements = document.select(".LD-A");

       StringnameString = "(";

       String[]names= new String[20];

       intj =0;

       for(int i = 0; i < elements.size(); i++) {

           Element element = elements.get(i);

           Elements ss = element.getElementsByTag("h4");

           Elements img = element.getElementsByTag("img");

           String textString = ss.get(0).text();

           if(!(textString.indexOf("")>=0&& textString.indexOf("") >=0) &&

                !(textString.indexOf("")>=0&& textString.indexOf("1") >=0)

                  ){

              StringplayerName = textString;

              StringimgUrl = img.attr("src").toString();

              imgUrl= "/activity/images/superboy/" + PinYinTest.getPinyin(playerName)+".jpg";

              System.err.println("('"+playerName +"','"+ imgUrl +"',1,''),");          

              }

       }

    }catch (IOException e) {

       //TODO Auto-generated catch block

       e.printStackTrace();

}

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值