上一期介绍了用户相关的字段信息,这期介绍微博相关。
这个由于是我个人整理,可能会随着我程序的不断深度开发,把需要的字段不断加入进去,所以这个文章可能会更新,所以各位看官可以收藏一个
1 内容字段解释
字段名 | 解释 |
---|---|
source | 微博来源 |
topic_struct | 话题结构体 |
mid | 这个id 读取微博的评论的时候有用 |
mblogid | 通过这个可以访问到具体的微博页面,例如:https://weibo.com/{uid}/{mblogid} |
text | 微博内容 |
text_raw | 微博内容,去掉链接的 |
reposts_count | 转发数 |
comments_count | 评论数 |
attitudes_count | 点赞数 |
created_at | 创建时间 |
region_name | 发布区域 |
screen_name | 用户昵称 |
idstr | 用户ID |
2 评论字段解释
和微博内容是大差不差的。
字段名 | 解释 |
---|---|
mid | mid |
created_at | 发表时间 |
screen_name | 用户昵称 |
idstr | 用户ID |
source | 来源 |
text | 发布内容 |
status_total_counter | 评论相关的数据,也有 comment_cnt, repost_cnt, like_cnt |
3 爬取链接
3.1 爬取实时热门
方式:API
https://weibo.com/ajax/feed/hottimeline?refresh=2&group_id=1028039999&containerid=102803_ctg1_9999_-_ctg1_9999_home&extparam=discover%7Cnew_feed&max_id={max_id}&count=10
3.2 按照关键词爬取
方式:爬取网页
url:https://s.weibo.com/weibo?q={keyword}&scope=ori&suball=1×cope=custom:2024-09-01-0:2024-09-18-0
修改keyword,访问这个网页就可以了,上面这个时间范围参数也可以修改,可以爬取该时间段内的
3.3 爬取评论
方式:API
https://weibo.com/ajax/statuses/buildComments?is_reload=1&id={mid}&is_show_bulletin=3&is_mix=0&max_id={max_id}&count=10&uid={uid}&fetch_level=0&locale=zh-CN
max_id 一开始可以传0,后续根据接口返回的max_id进行更新