虽然总有人对比python与R的实用性,但是作为数据分析的目标而言,工具不是重点,目标需求才是首要关注点,所以,今天尝试用R自带的一系列工具包来完成对于文本内容的挖掘,并利用标签云展示词频关系。
- 工具包
分词包jiebaR(类似于python中的jieba,但兼具标注,关键词提取以simhash等功能)
标签云包wordcloud
- 编程环境
R编译解释器
Rstudio(界面简洁,操作方便,集成大量实用功能)
- 挖掘展示过程
大体步骤分如下:
1.数据源的读入,整合并做分词
test <- readLines(“corpus.txt”, encoding = ‘UTF-8’)
mixseg = worker(stop_word = “stop_words.utf8”)
words = c()
for (i in test) {words = c(words, mixseg <= i)}
注:worker()函数建立分词环境,这里添加停用词路径,其他参数可使用?worker访问查看,将分割后的词语利用数组列表words存储;
2.数据频次统计,排序筛选,并制作数据帧data.frame
word = table(words)
word <- sort(word, decreasing = TRUE)