批量抓取微信公众号的文章

记录一下今天的成果,确实可以抓取到,配置完成之后1分钟可以抓取100+(后来优化了一下,可以达到300左右)片吧,我没有用多进程,如果是多进程的话,效率会翻倍的增加。

抓取思路

  网上的方法大约有三种

  第一:通过搜狗微信  搜索入口 ,模拟搜索抓取,效率比较低,而且还有验证码,反爬虫机制;建议放弃。

  第二:通过抓包工具截取htts请求的数据包,意思就是使用pc端微信登录,监听公众号的推送消息,每当监听到推送之后就把数据获取下来,缺点是无法获取以前的历史记录

  第三:通过微信公众号的后台获取cookie和token来抓取;缺点是需要注册一个公众号,而且token有过期时间

以上几种是网友提供的思路,都可以实现,但同时也都有缺点。

以下是我用第三种方法实现的;

使用php,node.js都可以抓取;

  1.注册微信公众,登录之后选择新建素材,然后点击超链接,搜索任意公众号,保存该公众号的fakeid,同时保存cookie和token,

  2.在https请求中 设置header的cookie为第1步保存的cookie,参数是token,发送https请求,你会惊奇的发现已经拿下某公众号的历史记录 (默认40条);

  3.然后根据列表里面的内容链接地址,再获取具体的网页内容;

  4.把获取的内容存到本地的数据库中

总结:以上思路仅供参考,具体实现需要靠自己;

提示:源码收费,还请谅解;

------------------------------------------------------------------------------

鉴于有人咨询了一下抓取程序价格,我在这里声明一下:

抓取的功能没有你想的那么智能

1.需要指定公众号(可以指定多个,没有上限)
2.需要设置token以及对应的cookie参数;

3.抓取速度,大约一分钟可以抓取300片左右(视网络,内容多少而定)

看到这里,你还没有放弃,那么看来你是真相要了。

可以一次性需求(每抓取一个公众号的数据需要50元--是不是很划算,只需要少量的付费就可以抓取上千片文章)

可以购买源码,因为源码是我自己开发方便我自己阅读用的,一般要买源码的都需要做一些修改和开发,视情况而定

 

转载于:https://www.cnblogs.com/ailingfei/p/10885529.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值