anyproxy批量自动采集微信公众号文章

最新推荐文章于 2024-05-16 09:32:41 发布

li_mancheng

最新推荐文章于 2024-05-16 09:32:41 发布

阅读量6.2k

点赞数 2

分类专栏： php 文章标签： php 微信

本文链接：https://blog.csdn.net/li_mancheng/article/details/78505364

版权

我从2014年就开始做微信公众号内容的批量采集，最开始的目的是为了做一个html5的垃圾内容网站。当时垃圾站采集到的微信公众号的内容很容易在公众号里面传播。当时批量采集特别好做，采集入口是公众号的历史消息页。这个入口到现在也是一样，只不过越来越难采集了。采集的方式也更新换代了好多个版本。后来在2015年html5垃圾站不做了，转向将采集目标定位在本地新闻资讯类公众号，前端显示做成了app。所以就形成了一个可以自动采集公众号内容的新闻app。曾经我一直担心有一天微信技术升级之后无法采集内容了，我的新闻app就失效了。但随着微信不断的技术升级，采集方法也随之升级，反而使我越来越有信心。只要公众号历史消息页存在，就能批量采集到内容。所以今天决定将采集方法整理之后写下来。我的方法来源于许多同行的分享精神，所以我也会延续这个精神，将我的成果分享出来。

本篇文章将持续更新，你所看到的内容将保证在看到的时间是可用的。

首先我们来看一个微信公众号历史消息页面的链接地址：

http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=MjM5MzczNjY2NA==#wechat_webview_type=1&wechat_redirect

=========2017年1月11日更新=========

现在根据不同的微信个人号，会出现两种不同的历史消息页面地址，下面是另一种历史消息页的地址，第一种地址的链接会在anyproxy中显示302跳转：

https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzA3NDk5MjYzNg==&scene=124#wechat_redirect

第一种链接地址的页面样式：

第二种链接地址的页面样式：

根据目前掌握的信息，两种页面形式无规律的出现在不同的微信号中，有的微信号始终是第一种页面形式，有的就始终是第二种页面形式。

上面这个链接是一个微信公众号历史消息页面的真实链接，但是我们把这个链接输入到浏览器中会显示：请从微信客户端访问。这是因为实际上这个链接地址还需要几个参数才能正常显示内容。下面我们就来看看可以正常显示内容的完整链接是什么样的：

//第一种链接
http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=MjM5NTM1NjczMw==&uin=NzM4MTk1ODgx&key=a226a081696afed0d9dfa0972fa431e116e5c4572ce52343178ad4e9a2b94aeaad6ac4dd87de3e56f72209a73a32e9cc2052f68aca4884e36cf726e99f2671630c741d8e4c29abe4a049d1a71eeb2be5&devicetype=android-17&version=2605033c&lang=zh_CN&nettype=WIFI&ascene=1&pass_ticket=zbA7PswOPKySRpyEYI5kDCjRiljxcpzdbTuVMauFGemgdp8R1DY1uQY49srehWab&wx_header=1
//第二种
http://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=MzA3NDk5MjYzNg==&scene=124&uin=NzM4MTk1ODgx&key=5134ab1cc362a0324183dbd55a2680d11ccbaa34cdb349ee9be58f5b666092ddb17adf8a88dc788831923f3c6087547d651f04209f72334d511c9e118a3800d7b05a324a38903f79cff940cf749ecd5a&devicetype=android-17&version=2605033c&lang=zh_CN&nettype=WIFI&a8scene=3&pass_ticket=Fo3zjtJcbPfijNHKUIQbV%2BeHsAqhbjJCwzTfV48u%2FCZRRGTmI8oqmHDxxfEL8ke%2B&wx_header=1

这个地址是通过微信客户端打开历史消息页面之后，再使用后面介绍的代理服务器软件获取到的。这里面有几个参数：

action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;

其中重要的参数是：__biz;uin=;key=;pass_ticket=;这4个参数。

__biz是公众号的一个类似id的参数，每个公众号拥有一个微信的biz，目前极小概率会发生公众号的biz会变化的事件；

剩下的3个参数是有关用户的id和令牌票据之类的意思，这3个参数的值是通过微信的客户端生成后自动补充到地址栏中的。所以我们想采集公众号就必须通过一个微信客户端app。在以前的微信版本中这3个参数还可以获取一次之后在有效期之内多个公众号通用。现在的版本已经是每次访问一个公众号都会更换参数值。

我现在所使用的方法只需要关注__biz这个参数就可以了。

我的采集系统由以下几部分组成：

1、一个微信客户端：可以是一台手机安装了微信的app，或者是用电脑中的安卓模拟器。经过实测ios的微信客户端在批量采集过程中崩溃率高于安卓系统。为了降低成本，我使用的是安卓模拟器。

2、一个微信个人号：为了采集内容不仅需要微信客户端，还要有一个微信个人号专门用于采集，因为这个微信号就干不了其它事情了。

3、本地代理服务器系统：目前使用的方法是通过Anyproxy代理服务器将公众号历史消息页面中的文章列表发送到自己的服务器上。具体安装设置方法在后面详细介绍。

4、文章列表分析与入库系统：我用的是php语言编写的，后文将详细介绍如何分析文章列表和建立采集队列实现批量采集内容。

步骤

一、安装模拟器或使用手机安装微信客户端app，申请微信个人号并登录到app上面。这一点就不过多介绍了，大家都会。

二、代理服务器系统安装

目前我使用的是Anyproxy，AnyProxy 。这个软件的特点是可以获取到https链接的内容。在2016年年初的时候微信公众号和微信文章开始使用https链接。并且Anyproxy可以通过修改rule配置实现向公众号的页面中插入脚本代码。下面开始介绍安装与配置过程。

1、安装 NodeJS

2、在命令行或者终端运行 npm install -g anyproxy，mac系统需要加上sudo；

3、生成RootCA，https需要这个证书：运行命令sudo anyproxy --root（windows可能不需要sudo）；

4、启动anyproxy运行命令：sudo anyproxy -i；参数-i是解析HTTPS的意思；

5、安装证书，在手机或安卓模拟器中安装证书：

方法一：启动anyproxy，浏览器打开 http://localhost:8002/fetchCrtFile ，能获取rootCA.crt文件
方法二：启动anyproxy，http://localhost:8002/qr_root 可以获取证书路径的二维码，移动端安装时会比较便捷
建议通过二维码将证书安装到手机中。

6、设置代理：安卓模拟器的代理服务器地址是wifi链接的网关，可以通过吧dhcp设置为静态后看到网关地址，看完后别忘了再设置为自动。手机中的代理服务器地址就是运行anyproxy的电脑的ip地址。代理服务器默认端口是8001；

现在打开微信，点击到任意一个公众号历史消息或文章中，在终端都可以看到响应的代码滚动。如果没有出现，请检查手机的代理设置是否正确。

现在打开浏览器地址http://localhost:8002 可以看到anyproxy的web界面。从微信中点开一个历史消息页面，然后再看浏览器的web界面，会滚动出现历史消息页面的地址。

以/mp/getmasssendmsg开头的网址就是微信历史消息页面。左边一个小锁头表示这个页面是https加密的。现在我们点击一下这一行；

=========2017年1月11日更新=========

部分微信号以/mp/getmasssendmsg开头的网址会出现302跳转，跳转到了/mp/profile_ext?action=home开头的地址。所以点开这个地址才可以看到内容。

右边如果出现了html的文件内容则表示解密成功。如果没有内容，请检查anyproxy的运行模式是否有参数i，是否生成了ca证书，手机是否正确安装证书。

现在我们的手机中的所有内容都已经可以明文通过代理服务器了。下面我们要修改配置代理服务器，使公众号内容被获取到。

一、找到配置文件：

mac系统中配置文件的位置在/usr/local/lib/node_modules/anyproxy/lib/；windows系统请原谅我暂时不知道。应该可以根据类似mac的文件夹地址找到这个目录。

二、修改文件rule_default.js

找到replaceServerResDataAsync: function(req,res,serverResData,callback) 函数

修改函数内容（请注意详细阅读注释，这里只是介绍原理，理解后根据自己的条件修改内容）：

=========2017年1月11日更新=========

因为出现了两种页面形式，且在不同的微信号中始终显示同一种页面形式，但为了能兼容两种页面形式，以下的代码会保留两种页面形式的判断，你也可以根据自己的页面形式去掉li

replaceServerResDataAsync: function(req,res,serverResData,callback){
    
        if(/mp\/getmasssendmsg/i.test(req.url)){
    //当链接地址为公众号历史消息页面时(第一种页面形式)
            if(serverResData.toString() !== ""){
    
                try {
    //防止报错退出程序
                    var reg = /msgList = (.*?);/;//定义历史消息正则匹配规则
                    var ret = reg.exec(serverResData.toString());//转换变量为string
                    HttpPost(ret[1],req.url,"getMsgJson.php");//这个函数是后文定义的，将匹配到的历史消息json发送到自己的服务器
                    var http = require('http');
                    http.get('http://xxx.com/getWxHis.php', function(res) {
    //这个地址是自己服务器上的一个程序，目的是为

最低0.47元/天解锁文章

li_mancheng

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
anyproxy批量自动采集微信公众号文章

我从2014年就开始做微信公众号内容的批量采集，最开始的目的是为了做一个html5的垃圾内容网站。当时垃圾站采集到的微信公众号的内容很容易在公众号里面传播。当时批量采集特别好做，采集入口是公众号的历史消息页。这个入口到现在也是一样，只不过越来越难采集了。采集的方式也更新换代了好多个版本。后来在2015年html5垃圾站不做了，转向将采集目标定位在本地新闻资讯类公众号，前端显示做成了app。所以就形
复制链接

扫一扫

专栏目录