作者丨Alfred
责编 | 伍杏玲
本文经授权转载自 Alfred数据室(ID:Alfred_Lab)
315晚会揭露各企业的造假,怎么也没看看流量明星的数据造假呢?作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一条之外,其它的基本每条都是转发100万+。
在我们的印象中,转发100万+可是某些明星官宣结婚、或者某些明星吸毒出轨被爆等能让微博服务器奔溃的流量呀。蔡徐坤真的那么火吗?他的100万+转发里到底是否存在假流量?假流量所占比重有多少呢?
为了解答这个问题,我们通过微博移动端随机抓取了蔡徐坤最新一条微博《再见,“任性的”千千…》的10万条转发数据(时间节点2019年3月11日10时)。这条讲诉蔡徐坤关爱小动物的短视频微博,于2019年3月9日01:23发布,到2019年3月10日18:00的时候已经被转发100万+。
数据的维度包括转发者的相关信息(昵称、性别、关注者数量和被关注者数量等)以及转发时的评论等。
蔡徐坤的微博转发是否存在假流量?
解答这个问题之前,我们其实对于蔡徐坤的粉丝性别比例更加感兴趣。按理来说应该他的女粉丝所占比例应该更大,但是我们统计了102313条转发数据中,有93618条是男粉丝转发的,只有8695条是女粉丝转发的。
这不对呀,难道更多的男生喜欢蔡徐坤吗?而且这比例也太悬殊了一点吧?于是我们随机抽取了男生转发的数据,发现这些转发的男粉丝基本上都是关注0,粉丝1的用户。
我们合理地推测:这些流量就是所谓的假流量。
那假流量所占的比例有多少呢?在这随机抓取的10万条转发数据中,有多少是假的流量呢?
真假流量所占的比例各有多少?
通过一番探索分析,我们把转发数据中转发者的关注或者粉丝数少于等于5、没有简介、转发之后被点赞数评论数再转发数都为0、微博会员等级为0级的数据,以及转发者的关注或者粉丝数大于等于5但昵称长“用户XXXXXXXX”这样的数据抽取了出来。
这部分数据,便是我们所说的假流量。
可见,102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%。原来假流量占的比重那么高啊!
那么6919条真粉丝转发的数据中,除去重复转发刷榜的数量,里面一共有多少个真粉丝在转发呢?我们把这部分数据按照粉丝微博ID进行去重。发现这里面只有3926个真粉丝在转发,也就是说,真实转发的粉丝数量,占总转发量的3.84%。
按照这个比例,可以推算出100万的转发中,真实转发的粉丝数为3.84万,说明蔡徐坤的粉丝群和影响力还是很大的,但远没有微博显示的全是100万+转发量那么大。
你可能会说:我们自己的微博,平时也有一些假粉丝在转发呀。为了进行对比,我们还抓取了最近活跃在《歌手》舞台的吴青峰叔叔(粉丝数1377万)最新的一条微博转发数据10006条(时间节点2019年3月11日10时)。
我们把这些数据按照跟上面一样的步骤提取出真假粉丝转发量,发现只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。
并且,在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。跟蔡徐坤的数据相比,可以发现有明显的不同。
假流量粉丝是如何生产出来的?
在高达93.24%的假转发量中,这些假粉丝都是如何生产出来的呢?有什么共同的行为特征呢?我们先给假粉丝进行了用户画像。
可见95397条假转发中,有40838个假粉丝。其中男性的比例高达95.42%!
我们把转发中所携带的评论进行计数,看看假粉丝在转发的时候都喜欢说什么,却发现了一些更有趣的事。
很多假粉丝去转发微博用户“蔡徐坤的南岸末阴大小姐”和“超超超超爱蔡蔡的思思”的微博(大家千万不要去攻击他们哈),我们搜索了一下这两个人,发现她们的粉丝量只有一两百人,转载的全是蔡徐坤的微博,并且很多微博再转发量为0,却有少数的微博再转发量高达好几千!
这,估计就是自己花钱为偶像买流量的粉丝。
另外,我们发现很多假流量粉在转发的时候喜欢携带英文评论。搜索了一下发现,这些英文评论,要么是英文歌词、要么是美剧台词、要么是泰戈尔或者聂鲁达的诗句。
在假粉丝使用的Top10转发设备中,Android高居榜首,这也再次证明了这些粉丝是假粉丝。
另外还有一些有趣的发现:假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)。
真流量粉的粉丝画像
先来看看真粉丝的性别比例。可见3926个真粉丝中,女生占了绝大部分,这才是符合逻辑的粉丝比例嘛。
在这些粉丝转发所携带的评论中可以看到,很多都是支持蔡徐坤拿下#明星势力榜#或者#东方风云榜#第一名而转发的。
真粉丝所使用的转发设备,各种设备分布都比较均匀,最受欢迎的是iPhone客户端。
真粉丝的平均关注量为222,平均粉丝数是179,同样,很多粉丝名字中喜欢带有“坤”、“蔡”、“葵”、“kun”等字。
我们把真粉丝的简介做成了词云图。
可见,真粉丝们的简介都喜欢带上蔡徐坤的名字,很喜欢蔡徐坤,想要一直陪着他走下去。看着里面的“少年”、“努力”、“自由”“追梦”等字眼,发现这就是我们以前的青春呀。
另外还把转发所带的评论做成了词云图。
可见,粉丝们都很在乎“风云榜”这件事,并且要帮助蔡徐坤拿第一名。里面有早安打卡的,有超级话题的,还有很多“开心”、“比心”、“温暖”等字眼。说明绝大部分真粉还是很温暖的。
总 结
数据显示,蔡徐坤动辄100万+的微博转发中,确实存在绝大部分的假流量。这些假流量估计有两方面的来源:一是自身经纪公司购买的,二是忠实的粉丝自费购买的。
若是自身经纪公司购买的话,这确实扰乱了整个娱乐圈市场的运作,对于娱乐圈乃至整个社会风气都是不好的。若是忠实粉丝购买的,笔者觉得,数据只是一个数据,这其中的资金,可以通过其它方面更好的方面去给自己的偶像添加影响力呀。我看最近蔡徐坤转发的#脱贫攻坚战星光行动# 这个话题就很好呀,通过自己的影响力,去做更多正能量的事情。(作者满满的求生欲看到没?!)
作者简介:Alfred,毕业于暨南大学,数据挖掘算法工程师,主要研究领域为数据挖掘、机器学习。
源码:
https://github.com/Alfred1984/interesting-python/tree/master/CaiXuKun
2019 年,开发者如何占领快应用技术风向的高地?
热 文 推 荐
☞中国程序员在德国:海外版抖音火爆,IT 人才稀缺!| 畅言
☞再不编程就老了!05 后比特币专家准备赚个 134,000,000 元!
☞大数据背后的无奈与焦虑:“128元连衣裙”划分矮穷挫与白富美?
☞麦克阿瑟奖得主Dawn Song:区块链能保密和保护隐私?图样图森破!
☞Pig变飞机?AI为什么这么蠢 | Adversarial Attack
System.out.println("点个好看吧!");
console.log("点个好看吧!");
print("点个好看吧!");
printf("点个好看吧!\n");
cout << "点个好看吧!" << endl;
Console.WriteLine("点个好看吧!");
Response.Write("点个好看吧!");
alert("点个好看吧!")
echo "点个好看吧!"
喜欢就点击“好看”吧!