平时的交流很多都在QQ上,QQ交流已经离不开日常的生活,这里我用R来分析QQ聊天记录,看看平时都聊了什么。
首先介绍下用的文本挖掘的包:Rwordseg 一个 R 环境下的中文分词工具,使用 rJava 调用 Java 分词工具 Ansj。
该包需配合rJava包一起使用。详见李舰老师博客:http://jianl.org/
Rwordseg包不能直接install.packages("Rwordseg"),需使用下列代码
install.packages("Rwordseg", repos="http://R-Forge.R-project.org")
如果安装不成功,可以直接下载压缩包,然后安装:
必备包安装好,下面该导出QQ聊天记录了:
这里保存为txt格式
导出的txt,导入R的时候可能会时间很长或者出错,这里用notepad++打开txt,然后转为ANSI编码格式即可。
准备工作做好了,下面开始文本
library(rJava)
library(Rwordseg)
library(RColorBrewer)
library(wordcloud)