使用jsoup简单爬取微信公众号一些图片

  1. 新建一个maven项目,在pom.xml中导入如下依赖
<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
 </dependency>

2.准备一个微信公众号的在线url地址,例如“https://mp.weixin.qq.com/s/YPrqMOYYrAtCni2VT8c4jA”,打开网页,f12调试该网页,找到图片所在的地址
,如下图所示,发现图片都是包含在一个p标签里面,p标签又包含在一个大的div元素中,图片如下所示
在这里插入图片描述
因此,编写如下java代码进行解析

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

public class Test {

    public static void main(String[] args) throws IOException {

          // 获取该网页的url地址
        String url = "https://mp.weixin.qq.com/s/YPrqMOYYrAtCni2VT8c4jA";
        // 解析成文档对象
        Document document = Jsoup.parse(new URL(url), 10000);
        // 获取到父节点id为js_content的所有元素
        Element jsContent = document.getElementById("js_content");
        // 获取到标签为img的素有元素集合
        Elements imgs = jsContent.getElementsByTag("img");
        int id = 0;
        for (Element img : imgs) {
           //获取图片的url地址
            String attr = img.attr("data-src");
            // 获取输入流
            URL target = new URL(attr);
            URLConnection urlConnection = target.openConnection();
            // 获取输入流
            InputStream inputStream = urlConnection.getInputStream();
            id++;
            FileOutputStream fileOutputStream = new FileOutputStream("E:\\jsoup_picture\\" + id + ".jpg");
            int temp = 0;
            while ((temp=inputStream.read())!=-1){
                fileOutputStream.write(temp);
            }
            System.out.println(id + ".jpg下载完毕");
            fileOutputStream.close();
            inputStream.close();

        }

    }

}

运行结果如下,图片成功爬成功
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值