关于网页抓取信息 Jsoup 和 HttpUnit 的使用

最新推荐文章于 2023-05-25 16:37:37 发布

置顶 u010833696

最新推荐文章于 2023-05-25 16:37:37 发布

阅读量2.8k

点赞数

分类专栏： 5月 2015年文章标签：关于网页抓取信息 jsoup

本文链接：https://blog.csdn.net/u010833696/article/details/45740871

版权

5月同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

2015年

2 篇文章 0 订阅

订阅专栏

之前看了看洪祥的csdn app 制作,里面有从网页抓取数据的. 之前对这块操作没有接触过,所以网上差了一些资料,现在整理下相关的内容.
首先是关于Jsoup , Jsoup 是网页抓取的首选.但是请注意: 如果Jsoup去抓取的页面的数据，全都是页面加载完成后，ajax获取形成的，是抓取不到的。
具体请看鸿翔的博客. 地址是网页信息抓取进阶支持Js生成数据 Jsoup的不足之处
首先看看Jsoup 的代码:

这个是网页源代码中截取的一段,我们需要去解析这段代码:

<div class="unit">
<h1><a href="http://www.csdn.net/article/2015-05-12/2824667" target="_blank" >万达圆梦“+互联网”的支点：支付</a></h1>
<h4>发表于<span class="ago">2015-05-12 15:58</span>|<span class="view_time">1676次阅读</span>|<span class="num_recom">4条评论</span></h4>
<dl>                
<dt>
<a href="http://www.csdn.net/article/2015-05-12/2824667" target="_blank"><img src="http://img.ptcms.csdn.net/article/201505/12/5551b25feb70a_thumb.jpg" alt="" /></a>
</dt>
<dd>万达的布局逻辑是，线下依然核心支柱，而线上则不断完善加快线下产业的发展。而收购的支付——快钱，正是撬动万达快速转型的这个必不可少的支点。有了它，万达可以成为一线电商平台、做互联网金融和推进线下变革。</dd>
</dl>
<div class="tag">
<a href="http://www.csdn.net/tag/%E4%BA%92%E8%81%94%E7%BD%91/news" target="_blank">互联网</a>
<a href="http://www.csdn.net/tag/%E7%A7%BB%E5%8A%A8%E6%94%AF%E4%BB%98/news" target="_blank">移动支付</a>
<a href="http://www.csdn.net/tag/%E7%94%B5%E5%AD%90%E5%95%86%E5%8A%A1/news" target="_blank">电子商务</a>
<a href="http://www.csdn.net/tag/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4/news" target="_blank">阿里巴巴</a>
<a href="http://www.csdn.net/tag/%E6%94%AF%E4%BB%98%E5%AE%9D/news" target="_blank">支付宝</a>
<a href="http://www.csdn.net/tag/%E7%8E%8B%E5%81%A5/news" target="_blank">王健</a>
<a href="http://www.csdn.net/tag/%E8%85%BE%E8%AE%AF/news" target="_blank">腾讯</a>
<a href="http://www.csdn.net/tag/%E4%B8%87%E8%BE%BE/news" target="_blank">万达</a>
</div>
</div>

这是使用 Jsoup 解析:

    public List<NewItem> getNewsItems(int newsType,int currentPage) throws CommonException{
      // 自己写的得到url 地址的工具类
        String urlStr = URLUtil.generateUrl(newsType, currentPage);
      //使用 http 发送get请求 .  
        String htmlStr = DataUtil.doGet(urlStr);

        List<NewItem> newItems = new ArrayList<NewItem>();
        NewItem newItem = null;

        Document document = Jsoup.parse(htmlStr);
        Elements units = document.getElementsByClass("unit");
        for (int i = 0; i < units.size(); i++) {
            newItem = new  NewItem();
            newItem.setNewsType(newsType);
            Element unit_ele = units.get(i);
            Element h1_ele = unit_ele.getElementsByTag("h1").get(0);
            Element h1_a_ele = h1_ele.child(0);
            String title = h1_a_ele.text();
            String href = h1_a_ele.attr("href");

            newItem.setLink(href);
            newItem.setTitle(title);

            Element h4_ele = unit_ele.child(1);
            Element span_ele = h4_ele.getElementsByTag("span").get(0);
            String date =  span_ele.text();
            newItem.setDate(h4_ele.text() + date);

            Element d1_ele = unit_ele.getElementsByTag("dl").get(0);
            Element d1_dt_ele = d1_ele.child(0);
            // 可能没有图片  
            try {
                Element img_ele = d1_dt_ele.child(0).child(0);
                String imgLink = img_ele.attr("src");
                newItem.setImgLink(imgLink);
            } catch (Exception e) {
            }

            Element dl_dd_ele = d1_ele.child(1);
            String content = dl_dd_ele.text();
            newItem.setContent(content);
            newItems.add(newItem);
        }
        return newItems;
    }