首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~
但是有些时候的确令人疑惑,为什么wyb随随便便发一条微博(不管是推广还是自拍)都可以有一百万加的转发量,这有点强哈~~~所以今天我们就选一条微博爬取其转发用户数据分析一下。
本人本着客观的态度分析,如果不正确的地方欢迎批评指正。
1 数据说明
- 数据源:王一博12月9日发的微博,截图时间为12月12日晚。即短短三天时间王一博发的一条广告转发量就达到了91.7万。本文爬取该微博的转发用户及其转发文案进行分析。
- 数据获取方法:浏览器抓包+python利用scrapy框架爬虫,获取过去24小时左右的转发数据。
说明:浏览器抓包得到的json数据是以时间倒序排列的,如“刚刚”、“1分钟前”、“5分钟前”……这样的数据排列方式导致抓取时间较早的数据比较困难。比如理论上91万条用户转发数据应该有9万多个page(一个page一般有9到10个数据),但是当我们page参数填入80000的时候会以极大几率返回空白信息。经本人多次验证,page小于19999的时候大几率能够获得有效信息,而19999page的时间大致为24小时,即12月11日晚上到12月12日晚上之间产生的数据。 - 数据获取时间:12月12日晚上开始爬取。
- 样本数量:30632(在过去24小时内产生的数据中随机抽取30632个作为样本,随机的方式为爬虫的时候是将page打乱进行爬取的)
- 数据结构初步浏览:
在进行数据清洗后,保留以下有用字段用于后续进行数据分析:
关于每个字段的含义,这里不详述(以后本人再写一篇关于微博字段的文章说明吧)