最近打算抓取知识星球的数据,分析下大家喜欢发布哪方面的主题,用词云的方式展示出来。
这里我们使用网页版进行爬取,首先用 Chrome 登陆知识星球,登陆成功后按下 F12 打开 Developer Tools,并进入查看网络请求窗口。
然后在页面点击一个订阅的星球,此时网络会去请求该星球的数据,肯定会有一个 topics?scope=digests&count=20 的 GET 请求,点击该请求,在请求头里会有一个 Authorization 参数,将该参数对应的值记下。该参数相当于一个认证 ID,在一段时间内一直有效,后面爬虫就会一直使用该数值请求数据。
网页版星球是没有分页的,后在下拉框到底部后自动加载,此时我们可以看到请求地址是:topics?count=20&end_time=2018-06-14T00%3A00%3A52.603%2B0800,是根据时间来进行请求的,这个请求应该满足我们按时段分析数据的需求。
我们来分析 帅张和他的朋友们 的星球数据,其基本 URL 是 https://api.zsxq.com/v1.10/groups/2421112121/。
数据解析
用 Postman 测试接口,可以得到返回的数据是一大坨 json 数据,形如:1
2
3
4
5
6</