微信公众号爬虫

最近研究了下微信公众号文章爬虫。发现很多公司都做了。做的最好的应该是新榜和清博了。

最为便捷的爬虫是爬取sougou 微信搜索引擎。但其微信的文章地址不固定的,所以只爬取链接,不爬取内容没意义。

大部分的爬虫都是基于网页。所以又有了另一个点子,爬取微信网页版,但其不能查看历史文章,有一定的局限性。

万能的搜索最终告诉了最好的解决方案利用http proxy,并且要支持https。因为微信pc版和手机版通讯协议都是https的。通过中间人代理,我们抓到到微信历史文章的真正地址如原创丨美国这一动作,或导致中国提前收台!。这里我使用了开源golang 的http代理。开源的爬虫都写好了sundy-li/wechat_spider。go 语言很类似c语言,使用起来极不习惯我把访问的历史文章地址 发送到spring mvc后台,再通过chrome driver爬取所有文章标题和链接。


借助于selenium chrome driver 这个爬虫终极神器。我们可以随意提取网页的任何元素。

最后借助于按键精灵对pc版的微信人工模拟操作。即可抓取所有关注的公众号历史文章。

如有需要源码,请加我微信

ru

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值