python 下载公众号文章_Python爬虫实现的微信公众号文章下载器

平时爱逛知乎,收藏了不少别人推荐的数据分析、机器学习相关的微信公众号(这里就不列举了,以免硬广嫌疑)。但是在手机微信上一页页的翻阅历史文章浏览,很不方便,电脑端微信也不方便。

所以我就想有什么方法能否将这些公众号文章下载下来。这样的话,看起来也方便。但是网上的方法要么太复杂(对于我这个爬虫入门新手来说),要么付费。

但我的需求其实却很简单——“方便的查找 / 检索 / 浏览相关公众号的任意文章”,所以,一番学习检索后,上手做了一个小工具(打包成可执行文件了),虽然方法和代码相当简单,但实际上手用起来还是挺方便的。也给身边伙伴安利了几波。

工具需求:

输入:给定公众号ID,和用户需要获取的公众号文章目录页码数(小于已发布最大收录页数)

( 输出Ⅰ:每个公众号历史文章信息csv文件(链接+标题)

输出Ⅱ: wkhtmltopdf和pdfkit将html转换成PDF文件或者图片文件(初稿)

现有方案

之前在网上也搜索了些爬取微信公众号的资料,大概有如下几种

selenium爬取流程

安装python selenium自动模块,通过selenium中的webdriver驱动浏览器获取Cookie登录微信公众号后台;

使用webdriver功能需要安装对应浏览器的驱动插件

注意:谷歌浏览器版本和chromedriver需要对应,否则会导致启动时报错。

微信公众号登陆地址:https://mp.weixin.qq.com/

微信公众号文章接口地址可以在微信公众号后台中新建图文消息,超链接功能中获取:

搜索公众号名称

获取要爬取的公众号的fakeid

选定要爬取的公众号,获取文章接口地址

文章列表翻页及内容获取

AnyProxy代理批量采集

1、一个微信客户端:可以是一台手机安装了微信的app,或者是用电脑中的安卓模拟器。

2、一个微信个人号:为了采集内容不仅需要微信客户端,还要有一个微信个人号专门用于采集。

3、本地代理服务器系统:通过Anyproxy代理服务器将公众号历史消息页面中的文章列表发送到自己的服务器上。

4、文章列表分析与入库系统,分析文章列表和建立采集队列实现批量采集内容。

Fiddler设置代理和抓包

通过对多个账号进行抓包分析,可以确定:

_biz:这个14位的字符串是每个公众号的

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值