对微信公众号文章爬取进行分析

最新推荐文章于 2024-05-11 05:39:31 发布

_幻羽_

最新推荐文章于 2024-05-11 05:39:31 发布

阅读量1k

点赞数

文章标签：爬虫 http https

本文链接：https://blog.csdn.net/caigengzhong/article/details/112275644

版权

首先需要有个爬包工具，我使用的是fiddler，这个自行百度即可下载。
打开微信点击所要爬取的公众号，点击进入公众号。
再次点击进入查看历史信息
进入到历史信息页面，然后向下滚动，刷新出新的文章。
从fiddler里查看抓包的数据。
经过测试分析，只需要有这几个参数就可以获取到信息。
(1) action
(2) __biz
(3) offset //起始数
(4) count //每次数量，不过我试过了，每次最多就10个。
(5) ammmsg_token
(6) f=json //使数据以json数据返回。
在浏览器以json形式返回时，分析可知要提取数据中的content_url，这url则是文章的地址。
每次改变offset这个参数的值就可以把这个公众号所有的文章的url都提取出来，到时就可以下载下来了。
在下载公众号文章时有一个点需要注意一下，如果用同一个httpclient对象,爬取多次的时候就会返回需要验证，我是设置爬取25个url就换一个httpclient对象来避免这问题。

分析完毕，爬取的原因主要是微信公众号竟然没有正序。不过代码不难写，我就不提供了，大家自己编写下就可以了。

关注