python爬取bilibili数据_BiliBili爬取数据简单分析

爬虫介绍:从1号直播间爬取发弹幕人账号,当时在线人数有五万左右,但到8000多时每3s发弹幕的新用户已经很少了,所以我就以这8000多人为起始点,将其放入队列中,取出一个,获得其关注人数,粉丝数,并将其关注的人放入队列中。

我介绍爬虫的目的是,说明从爬取的方式来数据具有偏向性,偏向有关注的用户,对于没有关注者的人只可能在那8000多人中才会被爬到。

对于用户信息,我爬取了,id,name,sex,地址,粉丝数,关注数,等级,出生日期。

对于这些数据噪声非常大,特别是出生日期,另外还具有时效性,至于粉丝数一天之内可以变化很大,这也是为什么在我对于一些数据分析不怎么熟悉情况下,写这篇文章的原因,还须大家指点。

Python+Mysql,队列中有20w,但时间太长,我存入数据库8w。

图表用的文图。

一、对性别比例分析

1.全部

从图中看出男性比例很大,这也是好多人戏称,B站,大型同性交友网站。。。

此图忽略“保密”。

2.有一定粉丝数用户

第一张图引起我的好奇,我在B站首页,那些直播间女主播较多,为什么,粉丝数多的,男性占大多数?

我分析有两点:由BiliBili自身因素。男性基数大,内容方面偏向男性,虽然有直播,但直播这种形式兴起时间对于BiliBili发展时间看,不算很长,因此,可以说女性处于崛起阶段(由后两张可看出)。

团体组织,性别填男较多。比如暴走漫画,万合天宜,哔哩哔哩番剧等。

二、地域分布

排名情况:

三、粉丝数排名

由于数据的时效性,粉丝数统计数据会变化较大。

对于出生日期,还须进一步处理后,才能用于分析。

希望请教的问题:python 爬取,我是多线程爬取,但速度还是很慢,怎么加快速度?

我是 sql统计+文图输入数据画图 ,怎样更优雅的进行分析?

希望大家不吝赐教~谢谢!

别人建议补充:stark 显示各种数据历史曲线。(比如用户增长,女主播粉丝增长)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值