QQ聊天记录简单分析
0. Description
从QQ导出了和好友从2016-08-25到2017-11-18的消息记录,85874行,也算不少。于是就有了大致分析、可视化一下。步骤大致如下:
- 消息记录文件预处理
- 使用jieba分词
- 使用wordcloud生成词云
- 生成简单图表
结果大致如下:
1. Preprocessing
导出的文件大概格式如下:(已去掉多余空行)
2016-08-26 11:02:56 PM 少平
这……
2016-08-26 11:03:02 PM 少平
这bug都被你发现了
2016-08-26 11:03:04 PM C
反驳呀
2016-08-26 11:03:25 PM C
too young
2016-08-26 11:04:43 PM C
我去刷鞋子
2016-08-26 11:04:58 PM 少平
嗯嗯
好的
Observation&Notice:
- 每条消息上都有对应发送时间和发送者
- 列表内容
- 一条消息内可能有换行
由此,
- 可以依照发送者对消息分开为聊天双方。
- 将各自的内容分别放在文件中,便于后续分词和制作词云。
- 将所有聊天时间抽取出来,可以对聊天时段进行分析和图表绘制。
Arguments:
infile⇒ 原始导出消息记录文件
ou