scrapy 爬取微博(三)【最新超详细解析】: 字段解释篇(微博内容、评论)

上一期介绍了用户相关的字段信息,这期介绍微博相关。
这个由于是我个人整理,可能会随着我程序的不断深度开发,把需要的字段不断加入进去,所以这个文章可能会更新,所以各位看官可以收藏一个

1 内容字段解释

字段名解释
source微博来源
topic_struct话题结构体
mid这个id 读取微博的评论的时候有用
mblogid通过这个可以访问到具体的微博页面,例如:https://weibo.com/{uid}/{mblogid}
text微博内容
text_raw微博内容,去掉链接的
reposts_count转发数
comments_count评论数
attitudes_count点赞数
created_at创建时间
region_name发布区域
screen_name用户昵称
idstr用户ID

2 评论字段解释

和微博内容是大差不差的。

字段名解释
midmid
created_at发表时间
screen_name用户昵称
idstr用户ID
source来源
text发布内容
status_total_counter评论相关的数据,也有 comment_cnt, repost_cnt, like_cnt

3 爬取链接

3.1 爬取实时热门

方式:API

https://weibo.com/ajax/feed/hottimeline?refresh=2&group_id=1028039999&containerid=102803_ctg1_9999_-_ctg1_9999_home&extparam=discover%7Cnew_feed&max_id={max_id}&count=10

3.2 按照关键词爬取

方式:爬取网页

url:https://s.weibo.com/weibo?q={keyword}&scope=ori&suball=1&timescope=custom:2024-09-01-0:2024-09-18-0
修改keyword,访问这个网页就可以了,上面这个时间范围参数也可以修改,可以爬取该时间段内的

3.3 爬取评论

方式:API

https://weibo.com/ajax/statuses/buildComments?is_reload=1&id={mid}&is_show_bulletin=3&is_mix=0&max_id={max_id}&count=10&uid={uid}&fetch_level=0&locale=zh-CN
max_id 一开始可以传0,后续根据接口返回的max_id进行更新

scrapy是一个用于网站抓取和数据提取的Python框架,而微博和简书分别是一个社交媒体平台和一个知识分享平台。要使用scrapy爬取微博评论简书,可以按照以下步骤进行: 首先,需要安装好Python和scrapy框架。可以通过安装Python的pip包管理工具,并使用pip安装scrapy。 然后,对于微博,可以通过登录微博开放平台,注册一个开发者账号,并创建一个应用。获取到应用的App Key和Secret Key,以便进行API调用。在scrapy项目的settings.py文件中添加好相应的key。 接下来,使用scrapy创建一个新的项目。可以使用命令行工具执行以下命令:scrapy startproject weibo 在项目的spiders目录下,创建一个新的spider。可以使用命令行工具执行以下命令:scrapy genspider weibo_spider "weibo.com" 编辑新创建的spider,编写爬取微博评论的代码。可以使用weibo API提供的接口进行评论爬取。 然后,启动爬虫,执行以下命令:scrapy crawl weibo_spider 在简书的情况下,可以使用简书提供的API接口进行评论的抓取。首先,需要注册一个账号,并通过简书的开发者平台获取到相应的API Key。然后,使用获取到的API Key进行API调用。 创建一个新的spider来实现对简书评论爬取,类似于上述微博的爬虫。 最后,启动爬虫,执行相应的命令来抓取简书评论。 总之,使用scrapy爬取微博评论简书可以通过利用它提供的网页抓取和数据提取功能,结合微博和简书的API进行相应的数据获取。通过上述步骤的操作,可以简单实现这个目标。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

麦麦大数据

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值