项目实训-工作思路

本文介绍了一种方法,从哔哩哔哩(B站)创作中心的关注列表出发,爬取并分析优质UP主的信息。通过获取官方账号关注的UP主列表,然后深入每个UP主的个人空间,收集包括昵称、生日、关注数、粉丝数、视频数据等详细资料。同时,还会筛选出粉丝数超过1000的UP主,进一步扩展爬取范围。这一过程有助于构建人物模型,理解UP主的影响力和内容特点。
摘要由CSDN通过智能技术生成

B站用户爬取(目标用户是优质up,我们认为优质up的信息更全面,更适合人物建模)

1.首先以哔哩哔哩创作中心所关注的up出发(认为该官方账号关注的up主是优质的),获取其所有的
关注。具体做法:这里利用网页返回的request包中的信息:followingsvmid=37090048&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp3
只获取返回json中的mid即up的唯一标识符uid,后续爬取中也要用到uid判断是否爬过该up
2.利用uid进入每个人的用户空间,例如:https://space.bilibili.com/37090048/,在这里可以获取
他的大部分信息,以及个人详细信息:https://api.bilibili.com/x/space/acc/info?mid=37090048&jsonp=jsonp。包括以后需要的昵称,uid,生日,关注数,粉丝数,标签,所获荣誉,等级,认证信息,公告信息,视频数据(能想到的有av/bv号,视频标题,简介,用户投稿数,投稿的视频分区,播放量,弹幕数,评论数,标签)
3.在每进入一个用户空间时,同样获取其关注的up主,保存到up主预访问列表中,在该列表中以粉丝数超过1000为基准,将粉丝数超过1000的up主作为要爬取的用户信息。粉丝数信息:https://api.bilibili.com/x/relation/stat?vmid=491593210&jsonp=jsonp
该包中可获取详细的粉丝数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值