爬取B站10万数据，看看都有哪些热门的UP主！

最新推荐文章于 2021-09-06 18:38:25 发布

weixin_34189116

最新推荐文章于 2021-09-06 18:38:25 发布

阅读量373

点赞数

文章标签：数据库 python 开发工具

原文链接：https://my.oschina.net/u/3849396/blog/1821840

版权

2019独角兽企业重金招聘Python工程师标准>>>

说起热门的B站相信很多喜欢玩动漫的，看最有创意的Up主的同学一定非常熟悉。我突发奇想学Python这么久了，为啥不用Python爬取B站中我关注的人，已经关注的人他们关注的人，看看全站里面热门的UP主都是是哪些。

要点：

- 爬取10万用户数据

- 数据存储

- 数据词云分析

1.准备阶段

写代码前先构思思路：既然我要爬取用户关注的用户，那我需要存储用户之间的关系，确定谁是主用户，谁是follower。

存储关系使用数据库最方便，也有利于后期的数据分析，我选择sqlite数据库，因为Python自带sqlite，sqlite在Python中使用起来也非常方便。

数据库中需要2个表，一个表存储用户的相互关注信息，另一个表存储用户的基本信息，在B站的用户体系中，一个用户的mid号是唯一的。

然后我还需要一个列表来存储所以已经爬取的用户，防止重复爬取，毕竟用户之间相互关注的现象也是存在的，列表中存用户的mid号就可以了。想学习可以加Python学习（q-u-n ）-227-435-450 即可获取，内附：开发工具和安装包，以及视频资料系统学习路线图

2.新建数据库

先写建数据库的代码，数据库中放一个用户表，一个关系表：

1240

3.爬取前5页的用户数据

我需要找到B站用户的关注列表的json接口，很快就找到了，地址是：

https://api.bilibili.com/x/relation/followings?vmid=2&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp7

其中vimd=后的参数就是用户的mid号

pn=1指用户的关注的第一面用户,一面显示20个用户

因为B站的隐私设置，一个人只能爬取其他人的前5页关注，共100人。

1240

整个爬取页面的思路比较简单，首先设置header,用requests库进行API请求，获得关注的用户数据列表。

1240

我们爬取前5页，每一页的数据进行简单的处理，然后转为字典数据进行获取mid,uname,sign3个维度的数据，最后save()函数存入db.

4.存入数据库

我们数据集里面一共有2个表，一个用户列表，用来存储所以的用户信息，一个是用户之间的关注信息。

1240

5.探秘是热门UP主

打算利用已经爬取到本地的数据进行词云的生成，来看一下这10万用户中共同的关注的哪些UP主出现的次数最多。

代码的思路主要是从数据库中获取用户的名字，重复的次数越多说明越多的用户关注，然后我使用fate的一张图片作为词云的mask图片，最后生成词云图片。

1240

最后一起来看一下词云图

1240

可以看出蕾丝，暴走漫画，木鱼水心，参透之C君，papi酱等B站大UP主都是热门关注。

转载于:https://my.oschina.net/u/3849396/blog/1821840

weixin_34189116

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取B站10万数据，看看都有哪些热门的UP主！

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。