一、接口获取分析
本次采集借助微信公众号平台获取接口链接进行爬取,过程如下:
微信公众平台:https://mp.weixin.qq.com/
- 注册账号并登录账号
- 打开“文章”编辑页面,点击“超链接”按钮,点击“选择其他公众号”按钮
- 在下方可以看到微信公众号搜索接口,我们确认之后通过翻页可以找到历史文章接口:
二、接口分析
历史文章接口:https://mp.weixin.qq.com/cgi-bin/appmsgpublish?sub=list&search_field=null&begin=0&count=5&query=&fakeid=MjM5NTE1OTQyMQ%3D%3D&type=101_1&free_publish_type=1&sub_action=list_ex&token=1338436259&lang=zh_CN&f=json&ajax=1
- 历史文章接口请求分析
url = "https://mp.weixin.qq.com/cgi-bin/appmsgpublish"
params = {
"sub": "list",
"search_field": "null",
"begin": "0",# 第一条数据的下标,第二页的初始值为(page-1)*count
"count": "5",# 每页返回数据最大值,一页能返回的最大值为20条数据
"query": "",
"fakeid": "MjM5NTE1OTQyMQ==", # 微信公众号的biz号,如果爬取自己的历史数据,此处为空
"type": "101_1",
"free_publish_type": "1",
"sub_action": "list_ex",
"token": "1338436259",
"lang": "zh_CN",
"f": "json"