【Python项目实战】哔哩哔哩用户抓取及源码

目录

文件介绍

用户数据初步分析

基本概况

性别

年龄

地区

注册时间

活跃度统计

粉丝统计

源码:

源码太多啦,想要获取完整的源码可以戳这里


本文所使用的数据可视化为infogr.am

该爬虫仅供学习使用

文件介绍

  • bilibili_user.py:爬虫文件
  • bilibili_user_info.sql:数据库文件
  • get_face.py:用户头像下载器

 

用户数据初步分析

基本概况

  • 总数据数:20119918
  • 抓取用户的顺序为其注册时间顺序:2009-06-24 14:06:54 至 2016-02-18 21:04:52
  • 预估遗漏数据:不超过2%
  • 抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。

性别

  • 有效数据:14643019
  • 保密:11621898
  • 男:1674196
  • 女:1346925

687474703a2f2f616972696e672e757273622e6d652f7572736262696c6962696c692d736578312e706e672d3630302e6a7067

这个男女比例是有点出乎个人预料的,接近1:1。其实之前初步抓了2013年暑假之前的数据,男女比例当时还在3:1这样。

687474703a2f2f616972696e672e757273622e6d652f7572736262696c6962696c692d736578322e706e672d3630302e6a7067

687474703a2f2f616972696e672e757273622e6d652f7572736262696c6962696c692d736578332e706e672d3630302e6a7067

可见明确性别的群体还是比较少的,只占了总数据的 15% 左右。

更多的分析日后再做。

年龄

  • 统计范围:1970-2010(1980年除外)
  • 总数据:3800767

具体数据不放了,简单看一下统计结果吧。

687474703a2f2f616972696e672e757273622e6d652f7572736262696c6962696c692d616765332e706e672d3630302e6a7067

主要用户分布在93-00年的用户(大概16-23周岁),其中97年(19岁)用户占了绝对的主导地位。

事实证明,B站小学生并不多,而是高中生、大学生比较多。

687474703a2f2f616972696e672e757273622e6d652f7572736262696c6962696c692d616765312e706e672d3630302e6a7067

 

90后用户占主体,但是用户年龄段正在不断后移。毕竟,是一个年轻人的网站。

地区

  • 分析范围:国内34个省市及地区。
  • 有效数据:863541

687474703a2f2f616972696e672e757273622e6d652f7572736262696c6962696c692d706c616365312e706e672d3630302e6a7067

主要用户分布在:广东、江苏、北京、上海、浙江等地区。都是一些经济很发达的沿海地区。

  • 5
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值