我是怎么保存公众号历史文章合集到本地的?当然是用python了!

640?wx_fmt=jpeg 本文授权转载自:小痴印记
不知道你有没有这样的经历。


偶然间,关注了一个自己特别感兴趣的公众号,感觉就像是挖到了一个宝藏。于是,我们就想翻一翻宝藏里都有什么。


但是,如果你想看到宝藏最开始的内容,你不得不翻山越岭,刷到公众号的历史起点。这还不算什么,等你下次想要接着看下一篇时,不得不重蹈覆辙。


那么,我们有什么办法解决一下这个问题呢?


用万能的python写个脚本,我们就可以把公众号历史所有的文章批量的保存为本地的PDF,这样,就可以根据标题和日期来看自己喜欢的文章啦!


核心内容:

1 抓包工具Fiddler的配置及其使用

2 python获取公众号全部历史文章url地址

3 把url转化为PDF

4 获取单个文章的方法


1 抓包工具Fiddler的配置及使用


1)工作原理

客户端和服务器之间建立一个代理服务器,监听本机发出的请求和服务器返回的响应结果。
640?wx_fmt=png
浏览器与服务器之间通过建立TCP连接以HTTP协议进行通信,浏览器默认通过自己发送HTTP请求到服务器。 
而Fiddler是c#开发(微软出品,主要作者Eric Lawrence)的http代理服务器,fiddler工作于七层中的应用层,能够捕获到通过的http(s)请求。
2)下载地址
这是官网:http://www.telerik.com/fiddler 你也可以在公众号【小痴印记】后台,回复关键字“Fiddler抓包”直接获取。
3)配置https
默认情况下,Fiddler是不会捕获HTTPS会话的,初次使用时,需要下载安全证书,并配置。
具体步骤: 依次点击“Tools-Options-Https”,进行如下图的配置,“Actions-Trust root”是下载安全证书的。
640?wx_fmt=png
4)设置局域网ip和端口号
Fiddler的运行机制其实就是本机上监听 8888 端口的 HTTP 代理。
Fiddler 启动的时候默认 IE 的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置的,所以将 Chrome 浏览器的代理改为127.0.0.1:8888 就可以监听数据了。
具体操作步骤,见第一篇参考文章: https://blog.csdn.net/jingjingshizhu/article/details/80566191

注意:运行爬虫程序时,要关闭Fidder客户端

2 python源码分析


1)打开微信客户端, 点开某一个公众号的历史文章界面

以我的公众号为例,如图。
640?wx_fmt=png
2)打开Fiddler,监听url 通过对比,前后两个url,可以发现,只是offset这个参数有所改变。

一些重要的关键字段: __biz : 用户和公众号之间的唯一id
uin :用户的私密id key :请求的秘钥,一段时候只会就会失效 offset :偏移量
640?wx_fmt=png
640?wx_fmt=png         
图的右下角,我们可以看到返回的数据类型,及其格式。
      640?wx_fmt=png        好啦,接下来,我们可以获取一页内容看看啦。 640?wx_fmt=png
看看,reponse_dict的内容。

640?wx_fmt=png
根据上图的json字符串,我们要做的是把title、content_url、datetime提取出来。


见下图。 640?wx_fmt=png


至此,我们成功的获取到了标题、时间、内容url等信息。
640?wx_fmt=png
只有在最后一篇文章时,can_msg_continue=0,其余所有文章都是1。
因此,获取公众号历史文章全部内容,可以加一个死循环,当判断为最后一篇文章时,直接break,结束循环。
完整代码: 关注【小痴印记】公众号,后台回复“公众号历史文章”

3 把url转化为pdf


用到了python第三方库pdfkit,重点在安装。
1)安装pdfkit  pip install pdfkit
2)安装wkhtmltopdf 1.下载地址: https://wkhtmltopdf.org/downloads.html,安装到本地即可。 2.将按照目录下的bin添加到环境变量的path中;
3)重启电脑,重启电脑,重启电脑。
640?wx_fmt=png
最终结果:
640?wx_fmt=png

4 获取单个文章的其他途径


1)在网页上,打开对应的文章,注意,一定要把文章加载到底部(待图片显示完全)
2)我用的谷歌浏览器,打印-ctrl+p,另存为pdf
640?wx_fmt=png
结果如下图: 640?wx_fmt=png

5 文章小结

本文主要介绍了,使用python获取你喜欢的公众号的历史文章,并保存到本地PDF文件。
其中,用到了Fiddler抓包工具,首先获得所有文章内容的url地址,然后可把url转为PDF文件,不过,此方法保存的文件,图片不能很好的显示。
所以,如果你只是想打印一篇文章,那么,我建议你可在浏览器端打开指定一篇文章,另存为PDF文件。
回复关键字“Fiddler抓包”获取“抓包工具” 回复关键字“公众号历史文章”,获取“完整源代码”
推荐阅读: (点击下方标题即可跳转) 暑期实习的那 5 周,我收获了些什么?
GitHub 标星 8w!学完这份指南后,你就可以去 Google 面试了!

640?wx_fmt=jpeg

⬆️欢迎长按图片识别二维码关注~

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值