爬虫实战三:微信公众号历史文章爬取

一、接口获取分析

本次采集借助微信公众号平台获取接口链接进行爬取,过程如下:

微信公众平台:https://mp.weixin.qq.com/

  1. 注册账号并登录账号
  2. 打开“文章”编辑页面,点击“超链接”按钮,点击“选择其他公众号”按钮
  3. 在下方可以看到微信公众号搜索接口,我们确认之后通过翻页可以找到历史文章接口:微信公众号账号搜索接口
    微信公众号历史文章接口

二、接口分析

历史文章接口:https://mp.weixin.qq.com/cgi-bin/appmsgpublish?sub=list&search_field=null&begin=0&count=5&query=&fakeid=MjM5NTE1OTQyMQ%3D%3D&type=101_1&free_publish_type=1&sub_action=list_ex&token=1338436259&lang=zh_CN&f=json&ajax=1

  • 历史文章接口请求分析
url = "https://mp.weixin.qq.com/cgi-bin/appmsgpublish"
params = {
   
    "sub": "list",
    "search_field": "null",
    "begin": "0",# 第一条数据的下标,第二页的初始值为(page-1)*count
    "count": "5",# 每页返回数据最大值,一页能返回的最大值为20条数据
    "query": "",
    "fakeid": "MjM5NTE1OTQyMQ==",  # 微信公众号的biz号,如果爬取自己的历史数据,此处为空
    "type": "101_1",
    "free_publish_type": "1",
    "sub_action": "list_ex",
    "token": "1338436259",			
    "lang": "zh_CN",
    "f": "json"
### 使用Burp Suite对微信公众号进行抓包配置 #### 设置代理服务器 为了使Burp Suite能够拦截并分析来自微信公众号的数据流,需确保设备上的浏览器或其他客户端已正确设置了代理服务器。对于Windows操作系统,在IE浏览器中完成此设置的具体路径为:进入浏览器设置->Internet选项->连接->局域网设置,开启代理服务器,并指定与Burp Suite相匹配的IP地址和端口号[^2]。 #### Burp Suite内部配置 切换至Burp软件界面内的Proxy模块下的Options子项,利用Add按钮录入之前于IE里设定好的本地主机名(通常是127.0.0.1)以及监听端口号码;同时确认选中了对应的条目以便激活流量截获机制[^1]。 #### 安装CA证书 为了让HTTPS加密通信可以被解密查看,还需要向系统导入由Burp自动生成的信任根证书。针对Mac OS平台而言,这涉及到调整网络偏好设置里的HTTP(S)代理规则,接着获取Burp颁发机构签发的凭证文件,最后将其添加到钥匙串管理器内并标记为完全信赖状态[^4]。 ```bash # 下载并安装Burp CA证书命令示例(适用于支持wget命令的操作系统) wget http://<your_burp_host>:8080/cert -O burp.der sudo security add-trusted-cert -d -r trustRoot -k /Library/Keychains/System.keychain burp.der ``` #### 实际抓包过程 当一切准备就绪之后,在PC版本的微信程序里面浏览任意感兴趣的官方账号文章或者执行某些互动行为时,所发出的所有请求都将经过中间人形式转发给Burp处理。此时可以在工具界面上直观观察到来往的消息体结构及其携带的内容详情。 需要注意的是,随着技术的发展和服务提供商安全措施的加强,部分敏感信息可能已被隐藏或保护起来不再轻易暴露在外,比如用户的电话号码等私密资料。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值