使用java 爬取 JD 上的图片

java爬虫

使用java 爬取 JD 上的图片

  • 使用java 爬取 JD 上的图片
  • 废话不多说,直接上代码
    pom.xml 引包
     <dependencies>
          <dependency>
              <groupId>org.jsoup</groupId>
              <artifactId>jsoup</artifactId>
              <version>1.8.3</version>
          </dependency>
          <!-- 文件下载 -->
          <dependency>
              <groupId>commons-io</groupId>
              <artifactId>commons-io</artifactId>
              <version>2.5</version>
          </dependency>
    
          <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
          <dependency>
              <groupId>org.apache.httpcomponents</groupId>
              <artifactId>httpclient</artifactId>
              <version>4.5.5</version>
          </dependency>
          <dependency>
              <groupId>org.projectlombok</groupId>
              <artifactId>lombok</artifactId>
              <version>1.16.8</version>
          </dependency>
          <dependency>
              <groupId>junit</groupId>
              <artifactId>junit</artifactId>
              <version>4.5</version>
              <scope>test</scope>
          </dependency>
      </dependencies>
    
    • 新建一个对象类
 package com.codervibe.domain;
  
  import lombok.AllArgsConstructor;
  import lombok.Data;
  import lombok.NoArgsConstructor;
  import lombok.ToString;

  /**
  * @author Administrator
  */ 
    //注解使用插件注解可以自动生成相应的方法
  @Data
  @NoArgsConstructor
  @AllArgsConstructor
  @ToString
  
  public class Content {
    private String img;
    private String price;
    private String title;
  }



  • 新建一个工具类
  • 工具类代码
package com.codervibe.untils;


import com.codervibe.domain.Content;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.net.URL;
import java.util.ArrayList;
import java.util.List;

/**
  * @author Administrator
  */
  public class HtmlParseUntil {
  //这里的Content是一个对象,是扒下来的图片的内容的对象
  public List<Content> parseJD(String keywords) throws Exception {
  //获取请求 https://search.jd.com/Search?keyword=java
  //前提需要联网!!
  String url = "https://search.jd.com/Search?keyword=" + keywords;
  //解析网页 jsoup 返回document 这个document就是浏览器JS的document对象
  //所有在js中的方法在这里都可以使用
  Document document = Jsoup.parse(new URL(url), 60000);
  Element element = document.getElementById("J_goodsList");
  System.out.println(element.html());
  Elements elements = element.getElementsByTag("li");
  ArrayList<Content> goodsList = new ArrayList<>();

       //获取里面的每个元素 这里的el 是刚刚获取到的所有li
       for (Element el : elements) {
           //图片
           String img = el.getElementsByTag("img").eq(0).attr("data-lazy-img");
           //价格
           String price = el.getElementsByClass("p-price").eq(0).text();
           //书名
           String title = el.getElementsByClass("p-name").eq(0).text();


           Content content = new Content();
           content.setTitle(title);
           content.setImg(img);
           content.setPrice(price);

           goodsList.add(content);

       }
       return goodsList;

  }
  }

  • 测试代码使用的是junit测试
  • 新建一个测试类 com.codervibe.pareTest
package com.codervibe;
/*
 * Created by Administrator on 2021/1/30
 * DateTime:2021/01/30 21:27
 * Description:
 * Others:
 */

import com.codervibe.untils.HtmlParseUntil;
import org.junit.Test;

public class pareTest {
    @Test
    public void test() throws Exception {
        new HtmlParseUntil().parseJD("java").forEach(System.out::println);
    }
    

}

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值