java开发的微信公众号文章爬虫

最新推荐文章于 2024-05-01 21:54:35 发布

大feiyu

最新推荐文章于 2024-05-01 21:54:35 发布

阅读量1.4k

点赞数

分类专栏：酷玩代码文章标签： java 公众号爬虫

本文链接：https://blog.csdn.net/feiyu229670104/article/details/108640018

版权

酷玩代码专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

需求产生
微信爬虫使用
- 直接粘贴公众号文章地址即可
- 保存生成的压缩包
附代码

需求产生

有时候会有这种需求，将别人的公众号文章“借鉴”为自己的。这时候你会启用f12打开调试工具或者直接将网页保存下来，但微信对图片做了防盗链，只能在自己的域名下使用。所以你还需要把图片保存下来，然后去一一替换文中的图片地址。

显然这个用代码来做，比你手动去改方便很多。所以搞了一个解析微信公众号文章的网页工具，解析公众号文章下载图片和html生成本地可离线浏览的网页副本。

基于这些，甚至还可以直接把文章爬取下来保存到自己的站点中，图片保存到图床中，做一个文章采集的站点

微信爬虫使用

爬虫体验地址：liflag.cn

直接粘贴公众号文章地址即可

在这里插入图片描述

保存生成的压缩包

在这里插入图片描述

附代码

代码很简单，就用了jsoup解析url和下载图片主要代码如下：


public static void main(String[] args) throws Exception {
        String html = getHtml("微信文章url");
        File txt=new File("D:/data/test.html");
        if(!txt.exists()){
            txt.createNewFile();
        }
        byte bytes[] = html.getBytes();
        FileOutputStream fileOutputStream = new FileOutputStream(txt);
        fileOutputStream.write(bytes);
        fileOutputStream.close();
    }

    public static String getHtml(String requestUrl) throws IOException {
        String startHtml = "<html><head><meta charset=\"UTF-8\">  " +
                "<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,maximum-scale=1.0,user-scalable=0,viewport-fit=cover\">  " +
                "<style>\n" +
                "        p {\n" +
                "            text-align: center;\n" +
                "            font-size: 1.5em;\n" +
                "        }\n" +
                "</style>";
        String endHtml = "</div></div></div></div></body></html>";
        String endHead = "</head>" +
                "<body id=\"activity-detail\" class=\"zh_CN mm_appmsg  appmsg_skin_default appmsg_style_default \">" +
                "   <div id=\"js_article\" class=\"rich_media\">  " +
                "   <div id=\"js_top_ad_area\" class=\"top_banner\"></div>" +
                "   <div class=\"rich_media_inner\">" +
                "   <div id=\"page-content\" class=\"rich_media_area_primary\"> " +
                "   <div class=\"rich_media_area_primary_inner\">";
        Connection connect = Jsoup.connect(requestUrl);
        Map<String, String> header = new HashMap<String, String>();
        header.put("User-Agent", "  Mozilla/5.0 (Android5.1.1) AppleWebKit/537. 36 (KHTML, like Gecko) Chrome/41. 0.2225.0 Safari/537. 36");
        Connection data = connect.data(header);
        Document doc = data.get();
        Elements meta = doc.select("meta");
        String viewPort = meta.get(2).toString();
        Elements style = doc.select("style");
        Elements elements = doc.select("img");
        int i = 1;
        HashMap<String,String> map= new HashMap<>(32);
        String path = null;
        for (Element elements1: elements){
            String a = elements1.attr("data-src");
            if (a != null && !"".equals(a)){
                if (map.get(a) == null || "".equals(map.get(a))){
                    try {
                        path = download(a, i, a.split("=")[1]);
                    } catch (Exception e) {
                        e.printStackTrace();
                    }
                    map.put(a,path);
                    i++;
                }
            }
        }
        Elements element = doc.getElementsByClass("rich_media_content");
        String html = element.toString();
        for (Map.Entry<String, String> entry: map.entrySet()){
            html = html.replace(entry.getKey(), entry.getValue());
        }
        html = html.replace("data-src", "src");
        String resultHtml = startHtml + viewPort + style.toString() + endHead + html + endHtml;
        return resultHtml;
    }

    public static String download(String urlString, int i, String suffix) throws Exception {
        // 获取URL并构造URL
        URL url = new URL(urlString);
        // 打开URL连接
        URLConnection con = url.openConnection();
        // 定义输入流
        InputStream is = con.getInputStream();
        // 定义1K的数据缓冲
        byte[] bs = new byte[1024];
        // 读取到的数据长度
        int len;
        /**
         *
         * 设置输出的文件流并设置下载路径及下载图片名称
         */
        String filename = "D:\\data\\\\test\\" + i + "." + suffix;
        File file = new File(filename);
        FileOutputStream os = new FileOutputStream(file, true);
        // 开始读取
        while ((len = is.read(bs)) != -1) {
            os.write(bs, 0, len);
        }
        // 下载完毕，关闭所有链接
        os.close();
        is.close();
        return filename;
    }

大feiyu

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
java开发的微信公众号文章爬虫

文章目录需求产生微信爬虫使用直接粘贴公众号文章地址即可保存生成的压缩包附代码需求产生有时候会有这种需求，将别人的公众号文章“借鉴”为自己的。这时候你会启用f12打开调试工具或者直接将网页保存下来，但微信对图片做了防盗链，只能在自己的域名下使用。所以你还需要把图片保存下来，然后去一一替换文中的图片地址。显然这个用代码来做，比你手动去改方便很多。所以搞了一个解析微信公众号文章的网页工具，解析公众号文章下载图片和html生成本地可离线浏览的网页副本。基于这些，甚至还可以直接把文章爬取下来保存到自己的站点中
复制链接

扫一扫