如何查看python源代码_Python源代码: 如何获取微信公众号历史记录文章

本文探讨了如何通过Python抓取微信公众号历史文章,涉及SogouWeChat Anti-Crawler的挑战,两种常见方法:搜狗微信抓取与客户端爬虫的对比。介绍了各自的利弊,包括简单易用与复杂性,以及获取完整数据的需求。
摘要由CSDN通过智能技术生成

7c2aec6306.jpg

背景#

微信公众号历史只能通过客户端(手机python抓取微信公众号,PC,Mac)查看,网络版微信不能查看公众号历史文章,否则就没有今天的文章.

具体的解释是,与公共账户历史文章相对应的URL必须由客户端生成,以供查看,并且该密钥也受到限制,具体限制为:

此键有一个时限,将近两个小时.

密钥不是通用的,每个公用帐户必须分别生成.

由于上述问题,要获取公共帐户并不容易,因此现在通常有两种方法.

i_1_2393261895x2025557972_26.jpg

获取搜狗微信.

使用“中间人攻击”的想法来使用代理获取.

获取搜狗微信#

这种很好的理解是获取网站数据. 请参考特定的代码: 该代码是用Python编写的.

好处: #

简单易用.

20180922201248813873.jpg

可以批量获取帐户.

所有爬网行为都可以在服务器上完成,而无需依赖客户端.

可以随时更新哪些公共帐户.

缺点: #

Sogou WeChat Anti-Crawler非常复杂,经常发现该代码不再可用,或者跳转到验证代码界面(我见过一个开源项目,有人在验证代码出现时购买了编码服务直接调用编码接口,该接口很便宜,这是一个想法).

捕获的链接是一个临时链接. 您需要跳转以获得永久链接.

n_24ffc35c5ee04367a13ce3b1392b19e4_750_0.jpg

只能获取由公共帐户推送的最新10篇文章,但无法获取历史记录.

对于上述问题,如果您只是想随便抓取最新文章,可以使用搜狗微信,但如果您确实想稳定抓取并需要更完整的数据,则需要使用以下方法.

使用代理和客户端爬网#

好处#

可以检索所有文章.

您可以在任何帐户之间切换(PC和Mac需要一些技能).

20180622223129701622.png

您可以获取文章的消息.

您可以欣赏这篇文章.

您可以获取阅读的文章,喜欢的文章等的数量.

保证稳定性,因为实际上我们没有进行任何非法操作.

缺点#

客户端是必需的python抓取微信公众号,这与直接在服务器上爬网的最大区别.

因为需要客户,所以效率相对较低. 平均而言,一个客户每秒可以抓取多达10篇文章,如果速度太快,则很容易出现请求速度太快的问题.

有时在自动爬网过程中,会出现一些导致爬网停止的问题,但这也是我们需要解决的问题.

本文来自电脑杂谈,转载请注明本文网址:

http://www.pc-fly.com/a/jisuanjixue/article-197920-1.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值