我和我的闺蜜们都在聊什么?

640?wx_fmt=jpeg

钱钟书说,有鸡鸭的地方粪多,有女人的地方话多。那么,女生之间到底都在讨论些什么东西?

640?wx_fmt=jpeg

今天,Yura将带大家挖掘一下Yura与另外两个好友的微信群聊中蕴含的有趣信息

首先看到,我们的群名是“新世纪独立女性养成研究所”,我们的口号是“男人都是大猪蹄子”!两位好友分别是“润贻”和不愿意透露姓名的“美少女”同学(不慌,文末有惊喜,嘻嘻)。

640?wx_fmt=jpeg

工具:

excel

R语言

一、数据收集

 

本次分析总共摘取了微信群从2018年3月9日至2018年7月30日共计144天的聊天内容,感谢淘宝卖家提供给我的强大工具“苹果恢复大师”,在经过将近一小时的扫描备份之后,抓取了比较满意的内容,包括文本信息、图片、语音、视频甚至链接等大部分信息。

二、数据清洗

老师果然没骗我,在一次数据分析的项目中,数据清洗至少要占80%的时间,我用实际行动为老师提供了又一个血淋淋的真实案例 T.T

 一开始我想得很简单,希望能做出一个漂亮的词云。这就需要删除文本信息中一些链接和图片等“乱码”,不过在删除过程中,我发现乱码也有一些信息可挖掘(等下再说),于是我边删除边记录,也得到了不少意料之外的收获。这两个小时也是值得的!

三、数据分析和可视化

1.聊天频率分析

首先我们来看一下,在这144天3456小时207360分钟之内,我们一共产生了几条消息:

640?wx_fmt=png

你没看错,我们约以4分钟一条消息的速度产生信息。

本人,很光荣地,以39%的比例荣获本群“话痨”称号。

但是我们可以看到我们三个人的发言频率大致相似,用行业话来说就是方差较小。

但在真实生活中,认识我们仨的共同好友肯定不会给我们的文静/活泼程度打上差不多的分数。这可以侧面反映:

640?wx_fmt=png
无论你在陌生人面前是谈笑自如还是静如瘫痪,在熟人面人必然会露出“动如癫痫”的本态。 (敲黑板,记重点!)
640?wx_fmt=png 更可怕的是,当我统计分析聊天日期levels长度的时候,我发现我们在 144天 内竟然讲了 144天 的话,也就是说, 这个群没有一天是安静的。

640?wx_fmt=png

如果这个群有第四个人存在的话,那TA肯定会被吵死...

不过,根据我上文的规律,我觉得TA加入我们的“叽叽喳喳”的行列之中的可能性更大!

640?wx_fmt=png 再来看我们整体的聊天频率:

640?wx_fmt=png

从上图可知,我们的聊天频率,真的比股票还稳呀!

三月偏低是因为我的聊天记录是从3月9日开始记录的,如果加上3月1日到3月8日这9天时间,应该会上升一点。

至于六月份的略微下滑,我只能(假装)归结于我们这个月减少了百分之十的聊天时间,去复习期末考啦!

640?wx_fmt=png 再具体到天:

640?wx_fmt=png

我们在3月12日的聊天频率是最高的。

这究竟是什么特殊的日子?

640?wx_fmt=jpeg原来润贻同学在这一天做出了尝试申请去德国交换学习的决定!因为我有经验,她就问了我许多相关的问题。

接下来我们从学习谈到了人生,谈了以后的工作,幻想如何成为富婆,最后以相约打耳洞结束...

不知道大家有没有发现,我们在聊天的时候,经常是这一秒忘了上一分钟说了什么话题。翻翻聊天记录,我经常的内心os是:“嗯?为什么突然说到这?卧槽,这也能扯到?!”当时的心路历程恐怕不是几段跳跃的聊天记录文字能够回忆起来的。所以说:

640?wx_fmt=png

女生之间的聊天话题总是飞崖式跳跃的。

(第二条规律了!)

那么我们在一天中的哪个时间段聊天频率最高呢?

640?wx_fmt=png

上图是我按照聊天小时来统计的,可以看到,中午休息和晚上睡前是我们聊天频率的高峰期。这也很合理,大家都是学生嘛, 白天总是有课要上。

但是我就想不明白了。

为什么凌晨两点三点四点五点,也都是有数据的呢?

上图看似是0,其实,下图才是真相:

640?wx_fmt=png

可能...嗯...是有人睡不着,在群里大发“我失眠了!怎么办?”之类的牢骚吧...

2.聊天内容分析

分析完了聊天频率,下面看一看我们这一天天的,到底聊了啥?

640?wx_fmt=png

今天推荐这首歌,前奏感人!
这条微博好好笑,快看!
快看这个抖音,哈哈哈哈。
这件衣服怎么样,你们帮我看看!

以上,就是我们肤浅而真实的日常(微笑)

不过仔细看看,从中我们可以悄悄地分析出:

  • 我和润贻同学是淘宝的常客

  • 美少女同学有一段时间沉迷抖音(因为虽然比重大,但是频次不高)

  • 润贻同学很喜欢刷微博消磨时间

  • 我们三个都是音乐girl(hey yo, what's up!)

640?wx_fmt=png

640?wx_fmt=png除了这些官方链接,我们还共享了屏幕截图6594次。

这里虽然无具体统计,但是作为当事人我可以肯定地告诉大家:

640?wx_fmt=png

百分之九十的屏幕截图都是聊天记录截图,其中百分之八十都是为了吐槽被截图的人。

(原因?没法解释)

640?wx_fmt=png

我们再来看一看我们的聊天方式的不同,有些人享受打字的快感(我本人),有些人觉得语音比较方便(美少女无疑了),有些人却觉得直接拍个图片或者视频更直观。

640?wx_fmt=png

从某方面来,聊天方式说能反映一个人的行事特点。

(具体请咨询心理专家)

下面瞧一瞧我们聊天的默认表情包top10:

自定义表情包太多了,分析起来难度较大,下次有空再试:(

640?wx_fmt=png

作为九零后老阿姨们,年轻人表情包的步伐是跟不上了,偶尔返璞归真一下也是不错的。

从表情包top10中我们隐隐看到了三个老阿姨面对生活小挫折的一种欲哭无泪的无奈感,紧接着是情绪的失控,然后是淡然处之的微笑态度。当问题解决之后ok,旋转跳跃一下,顺便讲个笑话活跃下气氛(编不下去了...)

说了这么多七七八八的内容,我好像还没有真正涉及到我们的聊天内容,大家别急,马上来!

经过筛选之后,我们得到的高频词的词云如下(形状越大表明出现频率越高):

640?wx_fmt=png

正如我朋友圈所言:

640?wx_fmt=jpeg
640?wx_fmt=png

再看看词高频名词top5和高频动词top5:

640?wx_fmt=png

640?wx_fmt=png

很欣慰!我们除了“吃”“这项人类生存基本需求和“买”这项女生基本生存需求,作为学生还会经常“想”和"说”有关“老师”“学校”和“室友”的优秀话题。

其中出现了一个比较有趣的关键词——杭州,有点怪异,但其实又在情理之中。因为我们三个有一个是在杭州上学的,有一个是想要去杭州求职的,自然提到的次数就有点高了(毕竟我们是爱学习爱工作经常思考未来的新世纪独立女性,耶)。

最后,欣赏一下我们的个人词云(为了美观,删去了特别高频的“哈哈哈”“哈哈哈哈”“男朋友”等关键字啦)

640?wx_fmt=png

640?wx_fmt=png
640?wx_fmt=png

重要鸣谢!!!

最后的最后,感谢润贻同学和美少女允许我使用宝贵的聊天记录,笔芯两位小可爱!喔,我也可爱。

ps:想认识下图的小姐姐们的请后台带照片私信我(公然征友!)

<<  滑动查看下一张图片  >>

640?wx_fmt=jpeg
640?wx_fmt=jpeg
640?wx_fmt=jpeg

出镜:Yura 润贻 美少女

end

生活不易,必须多才多艺。

数据很多,Yura分析跟你说。

不定期更新数据分析小文章

请大家多多关注多多点赞多多转发:)

关注我

640?wx_fmt=jpeg
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值