scrapy 爬取微博(三)【最新超详细解析】: 字段解释篇（微博内容、评论）

麦麦大数据

于 2024-09-17 10:54:01 发布

阅读量143

点赞数 2

分类专栏： scrapy微博爬虫实战项目文章标签： scrapy

本文链接：https://blog.csdn.net/roccreed/article/details/142300872

版权

scrapy微博爬虫实战项目专栏收录该内容

3 篇文章 0 订阅

订阅专栏

上一期介绍了用户相关的字段信息，这期介绍微博相关。
这个由于是我个人整理，可能会随着我程序的不断深度开发，把需要的字段不断加入进去，所以这个文章可能会更新，所以各位看官可以收藏一个

1 内容字段解释

字段名	解释
source	微博来源
topic_struct	话题结构体
mid	这个id 读取微博的评论的时候有用
mblogid	通过这个可以访问到具体的微博页面，例如：https://weibo.com/{uid}/{mblogid}
text	微博内容
text_raw	微博内容，去掉链接的
reposts_count	转发数
comments_count	评论数
attitudes_count	点赞数
created_at	创建时间
region_name	发布区域
screen_name	用户昵称
idstr	用户ID

2 评论字段解释

和微博内容是大差不差的。

字段名	解释
mid	mid
created_at	发表时间
screen_name	用户昵称
idstr	用户ID
source	来源
text	发布内容
status_total_counter	评论相关的数据，也有 comment_cnt， repost_cnt， like_cnt

3 爬取链接

3.1 爬取实时热门

方式：API

https://weibo.com/ajax/feed/hottimeline?refresh=2&group_id=1028039999&containerid=102803_ctg1_9999_-_ctg1_9999_home&extparam=discover%7Cnew_feed&max_id={max_id}&count=10

3.2 按照关键词爬取

方式：爬取网页

url:https://s.weibo.com/weibo?q={keyword}&scope=ori&suball=1&timescope=custom:2024-09-01-0:2024-09-18-0
修改keyword，访问这个网页就可以了，上面这个时间范围参数也可以修改，可以爬取该时间段内的

3.3 爬取评论

方式：API

https://weibo.com/ajax/statuses/buildComments?is_reload=1&id={mid}&is_show_bulletin=3&is_mix=0&max_id={max_id}&count=10&uid={uid}&fetch_level=0&locale=zh-CN
max_id 一开始可以传0，后续根据接口返回的max_id进行更新