Jsoup实现网络爬虫抓取数据

Jsoup实现网络爬虫抓取数据

在编写一个软件,例如关于教务软件的时候,需要获取学校官网的一些新闻信息来充实自己的软件,而又不会专门提供相关的api接口,此时就需要我们自己动手来抓取感兴趣的信息。有人会问抓取网站的信息是否会侵权。其实,一般能够通过浏览器访问得到的信息,都是公开的,抓取信息后不用来获取利益是不会有关系的,只是换了一个浏览方式而已。


获取整个网页的源码

想要抓取网页中的信息,首先要先获取整个网页的源码

        String url = "http://i.guet.edu.cn/";
        Document doc = Jsoup
                .connect(url)
                .timeout(1000).get();

通过Jsoup中的方法,我们很容易就获得了目标网页的源码Document对象。好了,获取到整个网页的源码后,接下来就是抓取自己想要的信息了,我们现在想要获取的是网页中滑动banner的图片地址,如下图:

这里写图片描述

通过以下代码很容易就可以得到图片的相对网址

        Elements elements = doc.select("div#pic_lun");
        Elements elements2 = elements.select("img");
        for (Element el:elements2){
            System.out.println(el.attr("src"));
        }

控制台输出如下:

这里写图片描述

如此,就获得了我们想要的信息。再比如获取新闻:
网页中的信息:

这里写图片描述

html源码部分:

这里写图片描述

然后我们试着来抓取:

        String url_news = "http://i.guet.edu.cn/news.php?page=1&type=85"; 
        Document doc = Jsoup
                .connect(url_news)
                .timeout(1000).get();
        Elements e1 = doc.select("div#content_middle");
        Elements e2 = e1.select("a");
//      System.out.print(e2);
        for (Element el2 : e2) {
            if (el2.text().length() > 20) {
                StringBuffer sb = new StringBuffer();
                sb.append(el2.text());
                String time = sb.substring(0, 9);
                String title = sb.substring(12);
                System.out.print("time:"+time+"\n");
                System.out.print("title:"+title+"\n");
                System.out.print("link:"+"http://i.guet.edu.cn/"+el2.attr("href")+"\n");
            }   
        }

控制台输出如下:

这里写图片描述

到此就完成了数据的抓取,还要将数据加入到listview中显示出来,这些数据才会有意义,革命尚未成功,同志仍需努力。

本人新手,有错指正,文章原创
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值