【伪大数据】对QQ空间指定好友2017年说说数据的分析

没错,我准备用我高考60分的数学水平以及小学生都不如的表达水平加上只会HELLO WORLD的编程水平来一次关于QQ空间动态的分析。

一、概况

本次爬虫的对象为我学校的一个“表白墙”(以下简称墙墙)在2017年发表的所有的说说。

1.1 整体情况

首先先来看一下我这次抓了多少数据:

爬虫启动于2017年12月31日 15:30

因故障停止于2017年12月31日 23:30 - 2018年01月01日 00:30 之间(原谅我忘记在爬虫日志里加上时间了,所以具体啥时候停的我也不知道)

最早一条数据是 2016/11/6 23:01:21 的一条说说

最晚数据是 2017/12/31 15:26:09 的一条回复

此次总共抓取了 17,229 条说说, 629,012 条点赞, 167,617 条回复

删去2016年的数据后,剩余 说说15,311条 ,回复163637条

可以看到,墙墙在2017年发表了 17,229 条说说,共收到 167,617 条回复,所发表说说总共被点赞了 629,012 次,所有说说总共被浏览了  30,907,875 次。

1.2 单条数据

看完了整体的数据,下面就是单条说说的数据:

1240

单条说说的最多与平均值

 

*单条说说浏览量最大值为 9970 次,嗯,比我从玩qq开始到现在的说说浏览量都大,不愧是我们学校的大V啊。

最有意思的是,平均每条说说浏览量为 2018 这似乎预示着什么~

二、说说分析

2.1 内容

2.1.1 整体

对于墙墙2017年发布的 17,229 条说说都是什么内容,相信大家都很好奇。(注1)

别着急,我也很好奇,所以我对所有的说说内容进行了整合做了词频分析,得到了如下结果:

1240

词频统计1

1240

词频统计2

嗯,可以看到我做了两个不同的词频分析,其中一个是国内公司提供的(图2,分词较好,但词组过少),另外一个是国外公司提供的(图1,分词较差,但数据比较好看)。

做成词云还是蛮好看的:

1240

说说词云 (注2)

可以看到,说说内容大多数是关于咨询问题、寻物、吐槽的。

表白墙已经变成了“询问墙”。

2.1.2 标签

墙墙发表说说时一般都会带上标签,诸如 【墙友询问】、【墙友表白】之类的。

于是我也对墙墙说说的TAG进行了统计,结果如下:

 

1240

TAG统计

除去无标签的和一些数量极少的标签,得到的结果如图。

“墙友询问” 这个“大佬”占了所有说说的一半,剩下的则被 “寻物”、“招领”、“吐槽”, 所瓜分。

而作为墙墙名字来源的“表白”只能屈居于第4位,前三名都没有挤进去。

所以说,表白墙虽然名为表白实际却是借着表白的幌子为人民服务(#滑稽

2.2 发表时间

2.2.1 每月

1240

月发表说说

可以看到月发表说说起伏较大,但是结合实际来看的话就不难想象为啥会这样了:

1-2 月正是放假的时候,所以这两月的说说发表量达到了一年中最低的时候。

而同样作为假期的7-8月却比1-2月说说多,我想是因为7-8月有很多大一新生,相应的问题就会变得多,所以说说发表量对应的就多一点。

而同样是上学期间的3-6月与9-12月说说发表量差距如此之大,除了下半年是大一新学期外,我想示因为下半年有话题性的节日比较多,且临近跨年,所以大家都比较骚动,因此你懂的。

至于11月为什么会达到顶峰,我也想不明白...也许对11月的说说内容分析一下就知道了吧,有兴趣的可以自己分心一下,我在此就不麻烦了。

 

1240

日发表说说

为什么一个月中每天说说发表数量起伏这么大?恕我直言,我也不知道,但是可以明显的看到的是,从每月月初到月底整体的说说数量的趋势是呈下降趋势的。也许是因为不是每个月都有31天?

 

2.2.2 周与日

1240

说说发表时段

1240

周发表说说

每周发表的说说数量相对来说比较平稳,但是在周末时会出现大幅度的下降,至于为啥不用说大家也明白。

而每天说说发表的时间也是比较平稳(除掉睡觉时间的话),然后,每次小高潮都是在下课时间(10:00、12:00、16:00、18:00)......原来我校学生上课很少玩手机啊。

至于 22:00 达到了一天中的最高潮,我想是因为21点下课(自习)后回宿舍折腾一阵后就想发发牢骚吧。

 

三、回复

3.1 内容

和说说一样,我也对所有的回复内容进行了整合之后做了词频分析,结果就不放上来了(涉及到大量隐私),直接上词云(其实我词云都不想放的)!

 

1240

回复词云

是不是被这个大大的 e400824 吓到了?猜猜这是什么?提示一下,这是一个emoji代码哦。

除开这个emoji,最显目的就是满屏的哈哈哈哈哈哈哈哈哈哈哈哈哈哈了!

哈哈~看来咱学校都是爱笑的孩子啊(其实是分词的问题了)

终于在这个图里看到了“喜欢”、“表白”等字眼了,看来表白墙的初衷没被忘记啊。

3.2 时间

1240

回复时间段

看来回复的时间趋势和发表说说的时间趋势非常相像啊。所不同的是,回复大多是在晚上21点以后,也许是大伙白天都忙于学业无法自拔,只有晚上才有时间刷刷动态吧。

特别需要指出的是,回复在0点还有很大的数据,1点后才逐渐趋于无,而我们学校是23:30熄灯,也就是说,即使熄灯了还是有很多人选择玩手机而不是睡觉。

而一天中回复开始上升的时候是从6点开始的,也就是说咱学校的学生都喜欢早起,并且会在起来后刷刷空间醒醒瞌睡。

四、点赞

4.1 时间

 

1240

月点赞数据

和说说发表的时间趋势差不多,点赞的高潮和低谷依然是分别在学期和假期,因此在此就不多说了。

4.2 点赞用户

(注3)

4.2.1 性别

1240

点赞性别

在剔除没有标明性别的人后,男女点赞比例约为 6.5:3.5 ,这与我在开学时对我们学校大一新生的男女比例做的统计差不多,也就是说,点赞与性别没有太大的关系。

4.2.2 星座

1240

点赞者的星座

在剔除了没有标记星座的用户后,得到了如上图的数据。

没想到我巨蟹座居然是倒数第二个。我还以为只有我一个人不喜欢胡乱点赞呢,看来是巨蟹座的通病??

4.2.4 城市

1240

点赞者地图

同样的,和我开学时对大一新生做的地址分析情况差不多,大多数点赞这是山西或附近城市的,南方的城市有量少但密集的分布,而北方正相反,量大而较为稀疏。

与我开学时做的分析相悖的是在南方居然出现了柳州、贵阳、昆明等城市的“点赞狂魔”,要知道,这些城市的学生并不是很多。

下面带大家来看一看点赞者城市排名:

 

1240

点赞地址排名

不出意外,前三全是山西省的。

而第五名的 卡洛 ,我查了一下,是爱尔兰的一个城市...

将它剔除后,前五都是山西的,哦不!前九都是山西的...

而根据我开学时的统计,大一新生中,来自山西运城的最多,而从上图也体现出了这一点,果然还是人多力量大啊。

 

五、墙墙最TOP

声明:该项只为娱乐,其中数据无法保证准确性。

如有不当言论请联系我删除。

1.“点赞是一种态度”

点赞,网络用语,表示“赞同”、“喜爱”。该网络语来源于网络社区的“赞”功能。送出和收获的赞的多少、赞的给予偏好等,在某种程度能反映出你是怎样的人以及处于何种状态。 --百度百科

是时候揪出真正的“点赞狂魔”了!

 

1240

点赞狂魔

从图中可以看到,2017年点赞最多的用户居然在一年内点赞了 11,936 次,平均每小时点赞 1.36 次。这绝对是墙墙真爱啊!

下面我们来看看点赞超过 5k 的用户有哪些:

 

1240

点赞狂魔,5k以上

所以,荣获 “点赞是一种态度” 奖的是:

516939***  (N***-旗舰店)

小声嘀咕:原来是打广告的啊,怪不得点赞这么勤快

2.“我不发表点意见就浑身难受”

评论,针对于事物进行主观或客观的自我印象阐述。评论易让人听到不利于自己的一面,因此评论的话语容易产生对方的逆反心理。但由于可以较快的表达自己的想法及感受,广为被大众所使用,实则是说者过瘾,听者闹心。

“我不同意你的观点,但我誓死捍卫你说话的权利”     --伊夫林·比阿特丽斯·霍尔

所以,就让我们揪出最喜欢评论的大佬,捍卫它的权利吧!

 

1240

回复数据,竖轴为QQ号,被当成数字处理了,所以是xxM

所以,最喜欢发表评论的人在2017年总共评论了 1,130 次,而2017年参与墙墙说说的讨论的所有人平均只评论了 20.53 次。也就是说,这个人评论次数是平均值的57倍!

再看,评论了 500 次以上的人有13个!看来咱学校果然人才辈出啊,看到啥都喜欢“批判一番”。

1240

回复数据(500以上)

因此,荣获 “我不发表点意见就浑身难受” 奖的是:

75423**** (******表白墙)   

怪不得这么勤奋,原来是本尊啊......

3.“我是最尽职的墙墙”

其实,表白墙是学校的一个神秘组织所负责的,并不只是一个人。

而他们一般都是以手机标志来区分不同的成员的。

所以,就让我们找出最尽职的墙墙吧!(此项数据存在较大的争议性,因为尽职与否应该是从多方面来考虑的,而我只考虑了发表说说的数量。虽然发表说说的数量能从一定程度上反映出不同负责人的值班时间的长短,但并不能客观反映是否尽职)

 

1240

手机标志数量统计

从上面的图中能够很明显的看到,有很多标志实际上是重复的,应该就是同一个人,所以我将疑似重复的数据合并后得到下面的数据:

 

1240

合并后的数据统计

这下就清楚多了,第一名居然一个人就发了 2,550 条说说,是第二名的两倍多!实乃最负责之首啊!而平均每个负责人发表的说说数量是100条左右,按照每个人有5个标志来算的话,也就是说“墙墙”这个神秘组织大概有30个负责人,果然是一个庞大神秘组织,要知道我班也就差不多30个人而已。

最终, “我是最尽职的墙墙” 奖是属于 梦幽吟风墙 的!

 

4.“我是最受欢迎的”

说说是QQ空间包含的一项及时发表心情,言论功能,必须在可以连接Internet的情况下使用且有字数格式限制。  --百度百科

关于怎么界定最受欢迎的说说,我思考了很久(其实也就不到5s就草率的决定了)终于得出了我的算法,至于怎么算的,先别急,我们先来看看一些数据。

 

1240

说说top榜

以上数据中的那串“乱码”是说说id,后面数字是相应的数值。

也就是说,现在能够用来判断的参数有4个,分别是 转发、回复、浏览、点赞。而什么算最受欢迎的呢?我觉得应该综合这5个数据来判断,但是也不能简单的求和或求平均值。那么怎么办?

当然是按照重要性来加权了!

按照我的想法,转发>回复>点赞>浏览。

ok,按照这样算后,得到如下数据:

1240

最受欢迎的说说

因为前三项数据比较接近,所以我决定 “我是最受欢迎的” 奖的获奖说说有三个:

1:14c1f42c041ac559be8c0000

 

1240

第一名

2:14c1f42c398f25594fbf0900

 

1240

第二名

3:14c1f42caf5e295a256a0e00

1240

第三名

至此,本次分析结束!

 

注意:

1.因为墙墙发的说说基本上都是发的聊天截图,而文字只有大致的梗概,所以说说内容的分析并不准确,应该将截图经过OCR后提出完整数据再分析,但是因为某些原因我并没有这样做。

2.此词云使用的是国外的网站提供的服务,所以分词数据不太准确,但是这样看起来更加美观,所以词云我没有选用更为准确的国内版,而是用的现在这个。

3.关于文中提到的我开学时做的新生数据分析,因为涉及到新生隐私,所以我并没有公开,只是在几个好友中小范围传播过。说到这我还是得批判一下学校,居然把新生数据就这样公开到了网上!完全不顾我们学生的隐私,一开始我还以为所有学校都是这样的,直到有一天我准备爬爬基友所在学校的新生数据,我才发现他所在学校的新生数据并没有公开,而且查询其他东西也得登陆才能查,我还以为他们学校是个例,于是我又看了基友B的学校...基友C的学校...我去!原来我的学校才是个例,居然只有我的学校公开了数据!

4.因为我的技术不够,且数学水平不够,所以能够分析的只有这些数据,更多高深的内容我也不懂,也弄不出来,如果各位大佬有什么好的建议希望能不吝赐教~多的不说了,为了折腾这个我已经弄了好几天了,下周就考试了,而我还没开始预习...再不预习怕是高数要考10分了~

 

词云&词频分析:https://timdream.org/wordcloud/ 

图表制作:Tableau、Excel

需要QQ空间说说爬虫的请至我的Github获取:QQzone_crawler

equationl 制作。

 

 

联系我:admin@likehide.com

原文发表于 2018.01.02 

稍后将补充对爬虫的分析以及如何爬取的教程。

请关注我的博客及时获取信息。

转载于:https://my.oschina.net/equationl/blog/1618059

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值