爬知识星球，制作自己的知识仓库

最新推荐文章于 2025-04-11 10:51:14 发布

胖琪的升级之路

最新推荐文章于 2025-04-11 10:51:14 发布

阅读量1.3k

点赞数 1

分类专栏：日常工作总结 java 工具

本文链接：https://blog.csdn.net/fengruiqi/article/details/88859120

版权

java 同时被 3 个专栏收录

69 篇文章

订阅专栏

日常工作总结

44 篇文章

订阅专栏

工具

2 篇文章

订阅专栏

爬虫知识星球

我们都知道现在知识星球里面的内容有很多的沉淀，但是我们并不能每次打开从头开始阅读到最后，虽然星主也会每隔一段时间对知识星球内容进行汇总，但还是有一定的遗留内容。

为了让自己对知识有个很好的把握，方便自己后期查询整理，今天先使用Java简单的使用爬虫，进行读取数据。

环境准备

我们使用的语言是Java8，开发工具是Idea,仓库管理使用ggithub，代码会存放到github上。

爬虫代码链接：https://github.com/menhuan/notes/tree/master/code/codebase-master/onirigi-repile

如果需要直接使用的，需要自己把里面cookie改成自己的，并且处理下浏览头部信息。

星球准备

进行爬虫首先需要找到星球是按照什么登陆，是按照token还是按照cookie，还是按照session的方式来进行数据交互的。

关于以上三者的内容区别，可以参考我上一篇文章的链接。

找出来http设置的header

这次爬虫并没有设置模拟登陆的操作，只是根据访问具体链接来操作。

登陆星球后，找到链接，查看请求头里面的内容。

2019-03-27-23-53-13

这样我们就能找到后台访问链接地址，如果在查找的时候，并不知道怎么查看，就自己使用F12查看下。

内容显示如图上所示。

不同的链接内容，可能并没有找到cookie信息，这时候需要我们耐心下，对于前后端产品都是需要鉴权验证的。
2019-03-27-23-56-02

从图上显示可知，知识星球是将token内容放到在cookie当中，那么我们在模拟访问的时候需要在http header上设置 cookie。

从上面图中我们可以找到在访问需要设置的header,还有需要访问的链接url:
https://api.zsxq.com/v1.10/groups/222454121411/topics?scope=digests&count=20

当然，在图上内容显示，还有更多的接口让我们去访问数据，先将整体的流程数据获取到，我们再进行更多的数据访问整合。

需要设置的header内容包含如下：

cookie: zsxq_access_token=CD063C9D-9A81-B150-C996-sdasa 需要替换成自己的
Referer：https://wx.zsxq.com/dweb 需要跳转的网站
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36 设置浏览器

这三个内容设置在http 访问中即可

写程序

程序是建立在Spring boot 1.5.10版本上。构建程序使用的gradle 4.9+.

   /**  http 访问知识星球设计的请求
     * @return java.lang.String
     * @Author fruiqi
     * @Description 爬虫设置header, 访问的url
     * @Date 22:53 2019/3/27
     * @Param [headMap, url]
     **/
    public String restStar(Map<String, String> headMap, String url) {
        RestTemplate restTemplate = new RestTemplate();
        HttpHeaders headers = new HttpHeaders();
        headMap.forEach((k, v) -> {
            headers.set(k, v);
        });
        HttpEntity entity = new HttpEntity(headers);
        ResponseEntity<String> exchange = restTemplate.exchange(url,
                HttpMethod.GET, entity, String.class);
        String result = exchange.getBody();
        return result;
    }

请求统一设置好之后，写访问service

        Map<String,String> headMap = new HashMap<>(10);
        headMap.put("User-Agent",USER_AGENT_ARRAP);
        headMap.put("Referer","https://wx.zsxq.com/dweb/");
        headMap.put("cookie","zsxq_access_token=CD063C9D-9A81-B150-C996-35B20D2E1ABD");
        RequestUtil requestUtil = new RequestUtil();
        String res = requestUtil.restStar(headMap, url);
        JSONObject jsonObject = JSON.parseObject(res);
        logger.info("[info] JSON content :{}",res);

通过上面链接我们就可以获得到知识星球数据。

当然这个具体还是在搭架子，后期需要完善的内容如下：