最近因为写毕业论文,想要找找怎样能够识别不相干方法评论,结果看到了R语言中使用K-mean聚类,可以查看不在聚类范围类的,输出异常的评论。由于K-mean聚类是针对数值型数据的,所以在运用K-mean聚类算法对文本进行主题聚类时,需要经历分词、词向量、文档-词矩阵等,用到了几个包。我原先针对这部分的文本分析主要时用Python中的结巴工具分词、提出关键词、LDA主题分类等方法。今天想要试试用R语言处理下看看
安装的包
1、Rwordseg rJava
所需要的中文分词包Rwordseg, rjava包。
install.packages("rJava")
install.packages("Rwordseg") #安装时出现了以下错误
Warning in install.packages :
package ‘Rwordseg’ is not available (for R version 3.4.3)
参考这位帖子里面的解决方法:http://f.dataguru.cn/forum.php?mod=viewthread&tid=558124
由于我的是64位的,按照帖子的解决方法一,按照时总时出现错误,因为下载的是Win32位的应用程序。所以我采用了方法二,自己手动下载,再解压缩到R语言安装包的目录下。
2、tm
install.packages("tm")
在后面做文本处理生成词频矩阵DocumentTermMatrix时,出现了中文乱码的问题,在解决这个问题上花费了很长的时间。后来将tm版本换成了0.6-2版本的,手动安装。步骤如下:
- 首先下载低版本点儿的tm二进制文件,任意放入一个路径下即可:tm_0.6-2.zip
- 在Rstudio中,写代码直接手动安装:
install.packages("C:/Users/35469/Documents/R/win-library/3.4/tm_0.6-2.zip",repos = NULL)
注意引用的路径,repos=NULL 代表无依赖包
-
引入下看看