步骤:
-
首先需要有个爬包工具,我使用的是fiddler,这个自行百度即可下载。
-
打开微信点击所要爬取的公众号,点击进入公众号。
-
再次点击进入查看历史信息
-
进入到历史信息页面,然后向下滚动,刷新出新的文章。
-
从fiddler里查看抓包的数据。
-
经过测试分析,只需要有这几个参数就可以获取到信息。
(1) action
(2) __biz
(3) offset //起始数
(4) count //每次数量,不过我试过了,每次最多就10个。
(5) ammmsg_token
(6) f=json //使数据以json数据返回。
-
在浏览器以json形式返回时,分析可知要提取数据中的content_url,这url则是文章的地址。
-
每次改变offset这个参数的值就可以把这个公众号所有的文章的url都提取出来,到时就可以下载下来了。
-
在下载公众号文章时有一个点需要注意一下,如果用同一个httpclient对象,爬取多次的时候就会返回需要验证,我是设置爬取25个url就换一个httpclient对象来避免这问题。
分析完毕,爬取的原因主要是微信公众号竟然没有正序。不过代码不难写,我就不提供了,大家自己编写下就可以了。