摘要
开发一个工具,把知识星球的帖子,转换成 PDF,方便阅读。本文仅说明大致思路。
关键词:Python
;HTTP
;Selenium
;JSON
; HTML
;中文分词;词云
一、项目背景介绍
知识星球里的年终总结帖子太多了,而且星球的搜索功能很烂。我如果想看某位星球成员的年终总结,找起来很麻烦。我就想能不能把里面的年终总结帖子导出来,做成 PDF,方面阅读呢。
S 老师说看别人的总结,就是在看别人的经历,如果再做一些工作,比如建立阅读台账。每看一篇总结,就把相关成员信息梳理一下,提取金句。那么,以后无论是线上交流,还是线下见面,都可以有的聊。再者,读别人的总结还可以对照自己的经历,从中获得启发。
那我就想啊,既然有这样的好处,那是值得做的。另外,我自己看,也可以给其他人看看啊。既方便了自己,也能”打破小透明“,为他人提供价值。当然,算是给自己找事儿做,把专业技能用起来,发挥所长。
一想到有这么多好处,那就撸起袖子,开干吧!
二、需求分析
这个工具实现的功能,用 Python 开发起来比较简单,主要分为两大模块:数据采集和数据处理。
(一)数据采集
数据采集需要解决怎么从知识星球上,把总结帖数据导出来。可以通过手动拷贝、HTTP
爬虫等方法获取。方法各有优劣,目前来看还是直接手动拷贝性价比高,虽然显得笨拙了。
(二)数据处理
数据处理需要解析 JSON
文件,提取总结帖子,放到 HTML
文档中,并转换为 PDF文件输出。词云是早早的需求启发加进去的。有些帖子带有图片,这个暂时不需要费心思弄了。能看文字就不错了。
三、实现方案设计说明
(一)数据采集
1、手动采集
(1)登录知识星球拷贝报文数据
扫码登录星球后,直接在浏览器开发者工具(F12
打开)中的 Network
处拷贝 HTTP
请求报文数据。
请求报文数据长这样:
(2)手动拷贝小技巧
巧用 Chrome
浏览器开发者工具中的 Console
控制台&#x