Jsoup实现获取京东商城图片

Jsoup是第三方类库,方便操作获取页面内容

Jsoup的maven仓库坐标:
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>
流程:

解析网页URL,获取页面document,通过F12查看页面元素标签,获取图片所在的父标签,根据父标签来获取img标签对象。然后获取图片路径URL,建立URL连接,获取输入流,创建输出流写入本地文件。

主要代码
public class Main {
    public static void main(String[] args) throws Exception {
        //网址路径
        //由于URL中使用中文会报错,所以这里需要将中文转码:URLEncoder.encode("联想笔记本","UTF-8")
        String path = "https://search.jd.com/Search?keyword="+ URLEncoder.encode("联想笔记本","UTF-8")+ "&enc=utf-8&spm=2.1.0";
        //创建URL对象
        URL url = new URL(path);
        //解析url返回页面的Document对象,
        Document document = Jsoup.parse(url, 10000);

        //要按F12查看元素标签内容
        //获取图片所在的父标签
        Element J_goodsList = document.getElementById("J_goodsList");

        //根据父标签来获取img标签对象
        Elements imgs = J_goodsList.getElementsByTag("img");
        System.out.println("------------------------------------------------------");
        System.out.println("获取的img标签内容如下\n"+imgs);
        System.out.println("------------------------------------------------------");

        URL imgURL;
        int num = 0;
        for(Element img : imgs){
            //根据属性来获取图片路径地址
            String attr = img.attr("data-lazy-img");
            if(!attr.isEmpty()){
                num ++;
                attr = "https:"+attr;
                System.out.println("该图片路径如下:"+attr);
                //下载图片到本地
                imgURL = new URL(attr);
                //连接到URL
                URLConnection urlConnection = imgURL.openConnection();
                //获取输入流
                InputStream reader = urlConnection.getInputStream();
                OutputStream writer = new FileOutputStream("src/main/resources/imgs/" + num + ".jpg");
                int temp;
                //写入到本地文件
                while((temp = reader.read()) != -1){
                    writer.write(temp);
                    writer.flush();
                }
                System.out.println(num+".jpg下载完毕!");
                reader.close();
            }
        }
    }
}
以下是使用Javajsoup库从京东网站爬取商品图片的代码示例: ```java import java.io.IOException; import java.io.InputStream; import java.net.URL; import java.util.ArrayList; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class JdImageCrawler { public static void main(String[] args) throws IOException { String url = "https://search.jd.com/Search?keyword=手机"; List<String> imageUrls = getJdImageUrls(url); downloadImages(imageUrls); } /** * 从京东搜索结果页面获取商品图片链接 * @param url 京东搜索结果页面的URL * @return 商品图片链接列表 * @throws IOException */ public static List<String> getJdImageUrls(String url) throws IOException { List<String> imageUrls = new ArrayList<>(); Document doc = Jsoup.connect(url).get(); Elements elements = doc.select(".gl-item .p-img img"); for (Element element : elements) { String imageUrl = element.attr("data-lazy-img"); if (imageUrl == null || imageUrl.isEmpty()) { imageUrl = element.attr("src"); } imageUrls.add(imageUrl.replace("/n9/", "/n1/")); } return imageUrls; } /** * 下载图片到本地 * @param imageUrls 商品图片链接列表 * @throws IOException */ public static void downloadImages(List<String> imageUrls) throws IOException { for (String imageUrl : imageUrls) { URL url = new URL(imageUrl); InputStream is = url.openStream(); String fileName = imageUrl.substring(imageUrl.lastIndexOf("/") + 1); byte[] bytes = new byte[1024]; int len; try (FileOutputStream fos = new FileOutputStream(fileName)) { while ((len = is.read(bytes)) != -1) { fos.write(bytes, 0, len); } } } } } ``` 这个代码示例使用jsoup库从京东搜索结果页面获取商品图片链接,并使用Java标准库下载这些图片到本地。注意,这个示例代码并没有处理异常情况,实际应用中需要加入更多的错误处理和异常处理代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值