Java常用技术:Httpclient 实现网络请求 + Jsoup 解析网页(案例实战)

下面是度娘给出的一个官方解释:Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据(摘自百度)。

下面再用我个人语言简单的总结下:Jsoup 技术就是用来处理各种 html 页面 和 xml 数据。我们这里可以通过 Jsoup 来处理【2】中返回的 html 页面。

(3.2)加入 Jsoup 依赖

我们在 pom.xml 加入如下依赖:


<!-- Jsoup 核心包 -->

<dependency>

	<groupId>org.jsoup</groupId>

	<artifactId>jsoup</artifactId>

	<version>1.11.3</version>

</dependency>

(3.3)当然,使用 Jsoup 之前,我们需要对响应的 HTML 页面进行分析,分析主要作用是:如何定位筛选出我们需要的数据?

我们把【2】中获取到的页面响应拷贝到 txt 文本中,然后可以发现:每个图片它都包含在一个 div 中,且该div 有一个名为 material-div 的 class。

(3.4)按照上面分析:首先我们要获取到包含图片的所有 div,于是我们修改main方法中代码为如下:


    String html = HttpTool.doGet("http://www.zyqok.cn/material/index");

    // 将 html 页面解析为 Document 对象

    Document doc = Jsoup.parse(html);

    // 获取所有包含 class = material-div 的 div 元素

    Elements elements = doc.select("div.material-div");

    for(Element div: elements){

        System.out.println(div.toString());

    }

注意:doc.select() 括号中的参数为过滤条件,基本等同于 Jquery 的过滤条件,所以会Jquery的同学,如何筛选条件基本就得心应手的,当然不会写筛选条件的也不要怕,这里有一份 Jsoup 使用指南,阁下不妨收下(传送门:Jsoup 官方使用指南)。

(3.5)我们执行代码,将输出结果继续拷贝到文本中。

可以看到,本次确实只有图片相关的div元素了,但这并不是我们想要的最终结果,我们最终的结果是获取到所有图片。

所以我们还需要继续分析:如何获取所有图片的链接和名字。

(3.6)由于每个图片所在的div元素结构都一样,所以我们可以取随机取一个div元素进行分析,于是我们可以取第一个div来进行分析,结构如下:


<div align="center" style="padding: 10px;" class="material-div"> 

    <div style="width: 80px; height: 80px; margin-bottom: 3px; display: flex; align-items: center; justify-content: center"> 

        <img class="fangda image" src="https://zyqok.oss-cn-chengdu.aliyuncs.com/20200414220946131_大树夕阳.jpg"> 

        <input type="hidden" class="materialId" value="121"> 

    </div> 

    <font style="font-size: 5px">大树夕阳.jpg</font><br> 

    <font style="font-size: 5px">2020-04-14 22:09:46</font> 

</div>



(3.7)我们可以看到,整个结构内,就一个 img 元素标签,于是我们可以取第1个img标签的 src 属性为图片链接;同理,我们取第1个 font 元素的文本内容为图片名称。

(3.8)于是我们可以修改循环中的代码内容如下:


// 获取第1个 img 元素

Element img = div.selectFirst("img");

// 获取第1个 font 元素

Element font = div.selectFirst("font");

// 获取img元素src属性,即为图片链接

String url = img.attr("src");

// 获取name元素文本,即为图片名称

String name = font.text();

System.out.println(name + ": " + url);

(3.9)我们执行上面代码,可以得出如下结果。

可以看到,这个页面上的所有图片地址和名称已经被我们成功抓下来了。

【4】获取图片到本地

在第【3】步中,我们获取到的只是所有图片的链接,并没有将所有图片下载到我们本地,那么接下来,我们要将这个图片下载到我们本地才算完成。

(4.1)既然要下载到本地,我们首先在本地找个地方,用于存放这些图片。

比如:我将这图片全部下载到 D:\imgs(D 盘的 imgs 文件夹)中。

(4.2)我们在 HttpTool 类中增加保存图片到本地的方法,代码如下:


  /**

   * 保存图片到本地

   * @param src 图片地址

   * @param name 图片名称

   */

  public static void saveImg(String src, String name) {

    // 构建get请求

    HttpGet get = new HttpGet(src);

    // 创建客户端

    CloseableHttpClient client = HttpClients.createDefault();

    try {

      // 客户端执行请求,获取响应

      HttpResponse response = client.execute(get);

      // 获取响应的页面内容

      InputStream in = response.getEntity().getContent();

      int length;

      byte[] bytes = new byte[1024];

      FileOutputStream fos = new FileOutputStream("D:\\imgs\\" + name);

      while ((length = in.read(bytes)) != -1) {

        fos.write(bytes, 0, length);

        fos.flush();

      }

      in.close();

      fos.close();

    } catch (Exception e) {

      e.printStackTrace();

    }

  }

(4.3)修改 Test 类 main 方法最终代码如下:


  public static void main(String args[]) throws Exception {

    String html = HttpTool.doGet("http://www.zyqok.cn/material/index");

    // 将 html 页面解析为 Document 对象

    Document doc = Jsoup.parse(html);

    // 获取所有包含 class = material-div 的 div 元素

    Elements elements = doc.select("div.material-div");

    for (int i = 0; i<elements.size(); i++) {

      Element div = elements.get(i);

      // 获取第1个 img 元素

      Element img = div.selectFirst("img");

      // 获取第1个 font 元素

      Element font = div.selectFirst("font");

      // 获取img元素src属性,即为图片链接

      String src = img.attr("src");

      // 获取name元素文本,即为图片名称

      String name = font.text();

      if (!name.contains(".")) {

        name += ".jpg";

      }

      HttpTool.saveImg(src, i + name);

      System.out.println("抓取第 " + i + " 张图片成功! 图片名称 : " + name);

    }

    System.out.println("所有图片抓取完成 !!");

  }



(4.4)执行代码,打印如下图,看到这个结果,是不是感觉有点文章开头的展示味道了。

最后,我们只需要去本地文件夹下看看,所有图片是否成功保存到了本地?如果有图片,则我们就成功了。

(4.5)我们打开D盘imgs文件夹,可以看到网站上的图片确实已经全部保存到本地了。

【5】结尾语

通过我们 [批量抓取网络图片] 这一实战案例,我们可以感受到:通过 Httopclient 和 Jsoup 这两种技术,不仅仅可以批量抓取数据,其实还可以实现很多功能。

总结

其他的内容都可以按照路线图里面整理出来的知识点逐一去熟悉,学习,消化,不建议你去看书学习,最好是多看一些视频,把不懂地方反复看,学习了一节视频内容第二天一定要去复习,并总结成思维导图,形成树状知识网络结构,方便日后复习。

这里还有一份很不错的《Java基础核心总结笔记》,特意跟大家分享出来

目录:

部分内容截图:


:通过 Httopclient 和 Jsoup 这两种技术,不仅仅可以批量抓取数据,其实还可以实现很多功能。

总结

其他的内容都可以按照路线图里面整理出来的知识点逐一去熟悉,学习,消化,不建议你去看书学习,最好是多看一些视频,把不懂地方反复看,学习了一节视频内容第二天一定要去复习,并总结成思维导图,形成树状知识网络结构,方便日后复习。

这里还有一份很不错的《Java基础核心总结笔记》,特意跟大家分享出来

目录:

[外链图片转存中…(img-LX9AsZGp-1719270378800)]

部分内容截图:

[外链图片转存中…(img-qIEUNNlt-1719270378801)]

[外链图片转存中…(img-hzPGVPdL-1719270378801)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值