公众号腾讯位置服务器,这样爬取公众号,据说能把腾讯服务器所有公众号取下来...

我们都知道对于目前来说很多时候我们很多企业要爬取公众号为了获取到最全公众号无不绞尽脑汁,可是就是采集补全,这是为什么呢?其实原因很简单很多企业都是从第三方平台获取的微信公众号而第三方平台是爬取另外第三方或者腾讯公众号官网一部分,这样就往往导致采集不全。其实我在学习的时候也经常为此大伤脑筋,最近才忽然发现有一个方法和腾讯公众号的直接入口

微信公众号入口设计出一种爬取方法不出意外只要时间够久几乎能把腾讯上所有公众号都抓去下来。具体设计思想如下:

44aac82b423e

代码分析:

主体:

url:[https://mp.weixin.qq.com/acct/findacct?action=search](https://mp.weixin.qq.com/acct/findacct?action=search)

请求方式:post

核心请求代码如下:

import requests

posturl='https://mp.weixin.qq.com/acct/findacct?action=search'

header={

'referer': 'https://mp.weixin.qq.com/acct/findacct?action=scan&token=&lang=zh_CN',

'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'

}

postdata = {

'token': '',

'lang': 'zh_CN',

'f': 'json',

'ajax': '1',

'begin':"0",

'count': '9',

'query':"平安",

'acct_type': '0'

}

c1 = requests.post(posturl, headers=header, data=postdata, timeout=10).content.decode('utf8')

print(c1)

代码资源:链接:[https://pan.baidu.com/s/1DYMZCzIR6UE-AQRVq2kWGQ ](https://pan.baidu.com/s/1DYMZCzIR6UE-AQRVq2kWGQ)

提取码:hbpa

运行方式:

先下载redis后在kw.txt文件输入初始搜索关键字1个也行2个也行

然后运行devede.py将关键字录入到redis,然后启动spider.py即可成功运行,在运行前安装好pymysql,requests等python库初始关键字爬取完成后用结巴分词将爬取结果中公众号名称分词复制到kw.txt覆盖之前的重复刚刚步骤,即可爬取到更多公众号,由于时间关系并没有过多优化比如自动第一遍结束把结果分词录入redis感兴趣的朋友可以自行在这基础修改整合,好了今天就分享到这小伙伴们听没听懂都点个赞呗

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值