Python数据分析系列之——王一博微博转发量分析

本文通过Python数据分析王一博微博转发量,探讨是否存在水军现象。研究发现,3万转发中5125个独立账号参与,大部分为真实粉丝,可能存在部分粉丝为打榜多次转发。粉丝画像显示女性占比高,昵称和简介多与王一博相关,转发源以iPhone和微博国际版为主。
摘要由CSDN通过智能技术生成

首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~
但是有些时候的确令人疑惑,为什么wyb随随便便发一条微博(不管是推广还是自拍)都可以有一百万加的转发量,这有点强哈~~~所以今天我们就选一条微博爬取其转发用户数据分析一下。

本人本着客观的态度分析,如果不正确的地方欢迎批评指正。

1 数据说明

  • 数据源:王一博12月9日发的微博,截图时间为12月12日晚。即短短三天时间王一博发的一条广告转发量就达到了91.7万。本文爬取该微博的转发用户及其转发文案进行分析。
  • 数据获取方法:浏览器抓包+python利用scrapy框架爬虫,获取过去24小时左右的转发数据。
    说明:浏览器抓包得到的json数据是以时间倒序排列的,如“刚刚”、“1分钟前”、“5分钟前”……这样的数据排列方式导致抓取时间较早的数据比较困难。比如理论上91万条用户转发数据应该有9万多个page(一个page一般有9到10个数据),但是当我们page参数填入80000的时候会以极大几率返回空白信息。经本人多次验证,page小于19999的时候大几率能够获得有效信息,而19999page的时间大致为24小时,即12月11日晚上到12月12日晚上之间产生的数据。
  • 数据获取时间:12月12日晚上开始爬取。
  • 样本数量:30632(在过去24小时内产生的数据中随机抽取30632个作为样本,随机的方式为爬虫的时候是将page打乱进行爬取的)
  • 数据结构初步浏览:


    在进行数据清洗后,保留以下有用字段用于后续进行数据分析:

关于每个字段的含义,这里不详述(以后本人再写一篇关于微博字段的文章说明吧)

  • 15
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值