以『公众号』为例,手把手教你爬取PC端数据

63 篇文章 2 订阅
25 篇文章 1 订阅

之前教过大家如何爬取手机APP数据【以某乎为实战案例,教你用Python爬取手机App数据

思路:主要是通过手机设置代理,然后在pc端开启抓包工具获取数据包,然后在编写python代码(get方式)去请求数据

上次有粉丝说,那个是ios手机安卓手机现在需要root权限才可以安装证书,那么今天就不以手机为例,以电脑PC端为例,这样大家都可以上手尝试

今天教大家抓到post数据包之后,怎么编写python代码去狗仔构造数据包,这里以获取『微信公众号』文章的阅读数点赞数在看数为例进行讲解(之所以以这个例子,主要还是有点难度的,所以给大家分享一下这个技术)

1、抓包工具

同样,这里还是使用Fiddler

为什么要用抓包工具,不直接复制文章链接在浏览器里面采集?

因为在浏览器里面打开看不到阅读数点赞数、在看数等

所以这里采用抓包的方式

1.配置Fiddler

端口设置为8888

这里设置一下过滤域名,目的是只查看需要查看的域名数据包

2.安装证书

点击第一个可以在pc机上安装证书,Fiddler就可以抓取https数据包

2、pc端代理

在设置-代理,里面设置相应的ip和端口(这里ip是本机ip127.0.0.1,和fiddler中对应的端口)

下面就可以开始抓包

3、开始抓包

在pc机上打开微信公众号文章,比如

打开之后再Fiddler可以看到数据包

比如原文中阅读数:576、点赞:20、在看:5

对应数据包返回的json数据

4、编程构造Post请求

抓到数据包之后,我们可以知道cookie、表单,请求链接等信息

开始编写代码之前,先给大家说一下,大概需要用到哪些数据(表单里面有很多参数,但是大部分是不需要的),蓝色选中的就是需要的参数,其他的可以忽略

请求头(这里替换cookie),User-Agent是模拟手机浏览器

# 目标url
origin_url= "http://mp.weixin.qq.com/mp/getappmsgext"

headers = {
    "Cookie": yourcookie,
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.27.400 QQBrowser/9.0.2524.400"
}

 

这里是请求需要的其中三个参数(这个三个数通用的,可以不用改)

data = {
    "is_only_read": "1",
    "is_temp_url": "0",
    "appmsg_type": "9", # 新参数,不加入无法获取like_num
}

剩下的其他参数(每个参数配备了相应的说明)

###同一个公众号,这个不变
your__biz =""
###每一篇文章mid都不同
article_mid=""
###每一篇文章sn都不同
article_sn=""
###不变
article_idx="1"
###几十分钟有效,之后需要再次抓包更新
yourappmsg_token="1108_eNbZz5PR1hNkY3Duto6YbmYgGkvHMZaVbiPUGLsS53iccow77rh73HxzFPHQby1-Lw8AqItVlg_d96MU"

 

构造请求

​​​​​​​
origin_url = "https://mp.weixin.qq.com/mp/getappmsgext?"
appmsgext_url = origin_url + "__biz={}&mid={}&sn={}&idx={}&appmsg_token={}&x5=1".format(your__biz, article_mid, article_sn, article_idx, yourappmsg_token)
content = requests.post(appmsgext_url, headers=headers, data=data).json()

print(content)
print(content["appmsgstat"]["read_num"], content["appmsgstat"]["old_like_num"],content["appmsgstat"]["like_num"])

可以看到已经成功发送post成功,并且提取出对应的阅读数、点赞数、在看数

5、扩展

同一个公众号,如果需要获取其他文章的这些数据,只需要改变mid和sn就可以了,不同文章的链接如下图所示

6、小结

本文讲解了如何爬取PC端数据(以微信公众号为例),过程很详细,满满干货,希望可以起到抛砖引玉效果,让大家学到更多技术!

推荐阅读

手把手教你实现『B站直播』弹幕实时分析

以『B站直播』为例,实现数据『实时』可视化分析

Flask结合ECharts实现在线可视化效果,超级详细!

python实时采集直播弹幕数据进行可视化展示

公众号后台添加微信,可领取代码

​​​​​​​

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 数据中台是一个集中管理和整合企业数据的平台,它可以为企业提供数据分析、决策支持、业务运营等方面的服务。搭建数据中台有助于提高企业的数据治理能力、加速数据价值的释放,并支持企业实现数字化转型。 搭建数据中台的过程可以通过以下步骤来实现: 1. 数据需求识别:首先,企业需要明确自己的数据需求,包括哪些数据需要被整合和管理,以及需要利用这些数据做出什么样的决策或支持什么业务需求。 2. 数据源接入:根据数据需求,企业需要将来自不同系统和渠道的数据源接入到数据中台中。这可以通过建立数据连接、集成接口、ETL工具等方式实现。 3. 数据清洗和整合:接入的数据往往需要经过清洗和整合,以确保数据的准确性、一致性和完整性。通过数据清洗和整合,可以提高数据质量并消除数据冗余。 4. 数据存储和管理:在数据中台中,企业需要建立合适的数据存储和管理机制,以确保数据的安全性和可访问性。常见的数据存储方式有关系型数据库、数据仓库、数据湖等。 5. 数据加工和分析:通过数据加工和分析,可以为企业提供丰富的数据洞察和决策支持。这可以通过使用数据挖掘、机器学习、人工智能等技术实现。 6. 数据可视化和报表:将分析结果以可视化的形式展示给用户,并生成数据报表,以帮助用户更好地理解和利用数据。 最后,企业可以通过提供数据中台的PDF下载等方式,将搭建数据中台的经验和指南分享给其他企业,以促进数据中台在行业中的普及和应用。这样,更多的企业可以借鉴和应用这些经验,加速自身的数字化转型和数据驱动业务发展的进程。 ### 回答2: 数据中台是指企业利用先进的数据技术和平台,将分散的数据资源进行整合和集成,实现数据的全面管理和应用。搭建数据中台有助于企业更好地理解和使用数据,提升决策效果和业务价值。 要搭建数据中台,首先需要明确目标和需求。企业需要明确想要实现的具体目标,并根据业务需求确定所需要的数据资源,以及数据中台的功能和特性。 接下来,需要选择适合企业需求的数据中台平台。有许多不同的数据中台平台可以选择,包括开源的平台和商业化的平台。企业可以根据自身技术实力、预算和需求等综合考虑,选择最适合的平台。 然后,需要进行数据的集成和整合。企业需要将分散存储在不同系统中的数据资源进行整合,建立数据集市或数据仓库。这需要清洗、清理和转换数据,确保数据的质量和一致性。 同时,还需要建立数据治理体系。数据中台需要有明确的数据治理策略和规范,包括数据的标准化、存储和访问权限的管理等。这有助于提高数据的可信度和安全性。 最后,需要将数据中台与企业的业务系统进行集成和应用。数据中台可以为企业提供数据分析、数据挖掘和机器学习等功能,帮助企业更好地理解和应用数据,推动业务发展。 在搭建数据中台的过程中,企业可以参考一些实战经验和案例,了解其他企业在搭建数据中台时遇到的问题和解决方法。同时,也可以寻求专业的培训或咨询支持,帮助企业顺利地搭建自己的数据中台。 总之,搭建数据中台需要明确目标、选择合适的平台、进行数据的集成和治理,最终与业务系统进行集成和应用。通过合理规划和实施,企业可以有效地搭建数据中台,提升数据价值和业务效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lyc2016012170

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值