我和我的闺蜜们都在聊什么?

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

作者:Yura

来源:Yura不说数据说



钱钟书说,有鸡鸭的地方粪多,有女人的地方话多。那么,女生之间到底都在讨论些什么东西?

3901436-a893911a51a4822e

今天,Yura将带大家挖掘一下Yura与另外两个好友的微信群聊中蕴含的有趣信息


首先看到,我们的群名是“新世纪独立女性养成研究所”,我们的口号是“男人都是大猪蹄子”!两位好友分别是“润贻”和不愿意透露姓名的“美少女”同学(不慌,文末有惊喜,嘻嘻)。

3901436-36fc0b8d7703c77c


工具:

excel

R语言


一、数据收集

 

本次分析总共摘取了微信群从2018年3月9日至2018年7月30日共计144天的聊天内容,感谢淘宝卖家提供给我的强大工具“苹果恢复大师”,在经过将近一小时的扫描备份之后,抓取了比较满意的内容,包括文本信息、图片、语音、视频甚至链接等大部分信息。


二、数据清洗


老师果然没骗我,在一次数据分析的项目中,数据清洗至少要占80%的时间,我用实际行动为老师提供了又一个血淋淋的真实案例 T.T


 一开始我想得很简单,希望能做出一个漂亮的词云。这就需要删除文本信息中一些链接和图片等“乱码”,不过在删除过程中,我发现乱码也有一些信息可挖掘(等下再说),于是我边删除边记录,也得到了不少意料之外的收获。这两个小时也是值得的!


三、数据分析和可视化


1.聊天频率分析

首先我们来看一下,在这144天3456小时207360分钟之内,我们一共产生了几条消息:

3901436-4d542085caac906b

你没看错,我们约以4分钟一条消息的速度产生信息。


本人,很光荣地,以39%的比例荣获本群“话痨”称号。


但是我们可以看到我们三个人的发言频率大致相似,用行业话来说就是方差较小。


但在真实生活中,认识我们仨的共同好友肯定不会给我们的文静/活泼程度打上差不多的分数。这可以侧面反映:

3901436-cf446d77381ec572
无论你在陌生人面前是谈笑自如还是静如瘫痪,在熟人面人必然会露出“动如癫痫”的本态。 (敲黑板,记重点!)

3901436-3a27773c38048b13

3901436-f6f8da02d887f4f8

如果这个群有第四个人存在的话,那TA肯定会被吵死...

不过,根据我上文的规律,我觉得TA加入我们的“叽叽喳喳”的行列之中的可能性更大!

3901436-e12bc32308eeceb6
3901436-02a7d9a3fcd7ae7e

从上图可知,我们的聊天频率,真的比股票还稳呀!


三月偏低是因为我的聊天记录是从3月9日开始记录的,如果加上3月1日到3月8日这9天时间,应该会上升一点。


至于六月份的略微下滑,我只能(假装)归结于我们这个月减少了百分之十的聊天时间,去复习期末考啦!

3901436-afb437be60d0f96d

3901436-2bd55550d751d289


我们在3月12日的聊天频率是最高的。

这究竟是什么特殊的日子?


3901436-ab2679fac914a4ec


接下来我们从学习谈到了人生,谈了以后的工作,幻想如何成为富婆,最后以相约打耳洞结束...


不知道大家有没有发现,我们在聊天的时候,经常是这一秒忘了上一分钟说了什么话题。翻翻聊天记录,我经常的内心os是:“嗯?为什么突然说到这?卧槽,这也能扯到?!”当时的心路历程恐怕不是几段跳跃的聊天记录文字能够回忆起来的。所以说:

3901436-fe392a6013bfe1f6

女生之间的聊天话题总是飞崖式跳跃的。

(第二条规律了!)

那么我们在一天中的哪个时间段聊天频率最高呢?

3901436-f8ab0c4b79540278

上图是我按照聊天小时来统计的,可以看到,中午休息和晚上睡前是我们聊天频率的高峰期。这也很合理,大家都是学生嘛, 白天总是有课要上。


但是我就想不明白了。

为什么凌晨两点三点四点五点,也都是有数据的呢?

上图看似是0,其实,下图才是真相:

3901436-1ce739bfe31ec8b9

可能...嗯...是有人睡不着,在群里大发“我失眠了!怎么办?”之类的牢骚吧...


2.聊天内容分析

分析完了聊天频率,下面看一看我们这一天天的,到底聊了啥?

3901436-c95c2e556b4ac4d1

今天推荐这首歌,前奏感人!

这条微博好好笑,快看!

快看这个抖音,哈哈哈哈。

这件衣服怎么样,你们帮我看看!

以上,就是我们肤浅而真实的日常(微笑)


不过仔细看看,从中我们可以悄悄地分析出:

我和润贻同学是淘宝的常客

美少女同学有一段时间沉迷抖音(因为虽然比重大,但是频次不高)

润贻同学很喜欢刷微博消磨时间

我们三个都是音乐girl(hey yo, what's up!)

3901436-57eb33f5bc3cc6e0
3901436-9eb8fcb7b475d506

这里虽然无具体统计,但是作为当事人我可以肯定地告诉大家:

3901436-09e9f9c5a04bd21d

百分之九十的屏幕截图都是聊天记录截图,其中百分之八十都是为了吐槽被截图的人。

(原因?没法解释)

3901436-ab82f938fdc56548

我们再来看一看我们的聊天方式的不同,有些人享受打字的快感(我本人),有些人觉得语音比较方便(美少女无疑了),有些人却觉得直接拍个图片或者视频更直观。

3901436-efe9dbff599ada28

从某方面来,聊天方式说能反映一个人的行事特点。

(具体请咨询心理专家)


下面瞧一瞧我们聊天的默认表情包top10:

自定义表情包太多了,分析起来难度较大,下次有空再试:(

3901436-ae6c1c74cb199376

作为九零后老阿姨们,年轻人表情包的步伐是跟不上了,偶尔返璞归真一下也是不错的。


从表情包top10中我们隐隐看到了三个老阿姨面对生活小挫折的一种欲哭无泪的无奈感,紧接着是情绪的失控,然后是淡然处之的微笑态度。当问题解决之后ok,旋转跳跃一下,顺便讲个笑话活跃下气氛(编不下去了...)

说了这么多七七八八的内容,我好像还没有真正涉及到我们的聊天内容,大家别急,马上来!


经过筛选之后,我们得到的高频词的词云如下(形状越大表明出现频率越高):


3901436-637181aaf9f80172


正如我朋友圈所言:

3901436-cce0111c412eab4c
3901436-776bcad6d256a752

再看看词高频名词top5和高频动词top5:

3901436-6d7f7ae275b39128


3901436-19bdae6865387b71

很欣慰!我们除了“吃”“这项人类生存基本需求和“买”这项女生基本生存需求,作为学生还会经常“想”和"说”有关“老师”“学校”和“室友”的优秀话题。


其中出现了一个比较有趣的关键词——杭州,有点怪异,但其实又在情理之中。因为我们三个有一个是在杭州上学的,有一个是想要去杭州求职的,自然提到的次数就有点高了(毕竟我们是爱学习爱工作经常思考未来的新世纪独立女性,耶)。


最后,欣赏一下我们的个人词云(为了美观,删去了特别高频的“哈哈哈”“哈哈哈哈”“男朋友”等关键字啦)

3901436-ee0bcdc748d093b2


3901436-6be7ef277c15b3ae
3901436-00262cac21a2d85a


重要鸣谢!!!


最后的最后,感谢润贻同学和美少女允许我使用宝贵的聊天记录,笔芯两位小可爱!喔,我也可爱。

<<  滑动查看下一张图片  >>

3901436-dc4f9095f1fb04f1
3901436-7c209df7cfe1cc06
3901436-051a323645cac56d

出镜:Yura 润贻 美少女


3901436-82e289ea21b7573e

往期精彩:

  • shinydashboard与shiny_史上最全(一)


  • 金三银四求职季,七周成为数据分析师


  • R语言中文社区2018年终文章整理(作者篇)

  • R语言中文社区2018年终文章整理(类型篇)

3901436-d28a96c3b0c6cf68

公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战
回复 Python       1小时破冰入门
回复 数据挖掘     R语言入门及数据挖掘
回复 人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习     机器学习的商业应用
回复 数据科学     数据科学实战
回复 常用算法     常用数据挖掘算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值