B站用户爬取(目标用户是优质up,我们认为优质up的信息更全面,更适合人物建模)
1.首先以哔哩哔哩创作中心所关注的up出发(认为该官方账号关注的up主是优质的),获取其所有的
关注。具体做法:这里利用网页返回的request包中的信息:followingsvmid=37090048&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp3
只获取返回json中的mid即up的唯一标识符uid,后续爬取中也要用到uid判断是否爬过该up
2.利用uid进入每个人的用户空间,例如:https://space.bilibili.com/37090048/,在这里可以获取
他的大部分信息,以及个人详细信息:https://api.bilibili.com/x/space/acc/info?mid=37090048&jsonp=jsonp。包括以后需要的昵称,uid,生日,关注数,粉丝数,标签,所获荣誉,等级,认证信息,公告信息,视频数据(能想到的有av/bv号,视频标题,简介,用户投稿数,投稿的视频分区,播放量,弹幕数,评论数,标签)
3.在每进入一个用户空间时,同样获取其关注的up主,保存到up主预访问列表中,在该列表中以粉丝数超过1000为基准,将粉丝数超过1000的up主作为要爬取的用户信息。粉丝数信息:https://api.bilibili.com/x/relation/stat?vmid=491593210&jsonp=jsonp
该包中可获取详细的粉丝数。