对微信公众号文章爬取进行分析

步骤:

  1. 首先需要有个爬包工具,我使用的是fiddler,这个自行百度即可下载。

  2. 打开微信点击所要爬取的公众号,点击进入公众号。
    在这里插入图片描述

  3. 再次点击进入查看历史信息

    在这里插入图片描述

  4. 进入到历史信息页面,然后向下滚动,刷新出新的文章。
    在这里插入图片描述

  5. 从fiddler里查看抓包的数据
    在这里插入图片描述

  6. 经过测试分析,只需要有这几个参数就可以获取到信息。
    (1) action
    (2) __biz
    (3) offset //起始数
    (4) count //每次数量,不过我试过了,每次最多就10个。
    (5) ammmsg_token
    (6) f=json //使数据以json数据返回。
    在这里插入图片描述

  7. 在浏览器以json形式返回时,分析可知要提取数据中的content_url,这url则是文章的地址。
    在这里插入图片描述

  8. 每次改变offset这个参数的值就可以把这个公众号所有的文章的url都提取出来,到时就可以下载下来了。

  9. 在下载公众号文章时有一个点需要注意一下,如果用同一个httpclient对象,爬取多次的时候就会返回需要验证,我是设置爬取25个url就换一个httpclient对象来避免这问题。

分析完毕,爬取的原因主要是微信公众号竟然没有正序。不过代码不难写,我就不提供了,大家自己编写下就可以了。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值