用R语言实现文本挖掘(tm)、聚类

本文介绍了如何使用R语言进行文本挖掘,包括安装Rwordseg和tm包来处理中文分词和创建词频矩阵,以及解决分词后文件的乱码问题。在处理过程中,作者遇到了R版本不兼容、编码问题和tm包导致的乱码问题,通过降级tm包版本解决了这些问题。最后,文章提到了层次聚类的应用,并分享了修改RStudio字体和背景颜色的方法。
摘要由CSDN通过智能技术生成

最近因为写毕业论文,想要找找怎样能够识别不相干方法评论,结果看到了R语言中使用K-mean聚类,可以查看不在聚类范围类的,输出异常的评论。由于K-mean聚类是针对数值型数据的,所以在运用K-mean聚类算法对文本进行主题聚类时,需要经历分词、词向量、文档-词矩阵等,用到了几个包。我原先针对这部分的文本分析主要时用Python中的结巴工具分词、提出关键词、LDA主题分类等方法。今天想要试试用R语言处理下看看


 

安装的包

1、Rwordseg   rJava

 所需要的中文分词包Rwordseg,  rjava包。

install.packages("rJava")

 install.packages("Rwordseg")   #安装时出现了以下错误

       Warning in install.packages :
           package ‘Rwordseg’ is not available (for R version 3.4.3)

参考这位帖子里面的解决方法:http://f.dataguru.cn/forum.php?mod=viewthread&tid=558124

 由于我的是64位的,按照帖子的解决方法一,按照时总时出现错误,因为下载的是Win32位的应用程序。所以我采用了方法二,自己手动下载,再解压缩到R语言安装包的目录下。

  2、tm

install.packages("tm")

在后面做文本处理生成词频矩阵DocumentTermMatrix时,出现了中文乱码的问题,在解决这个问题上花费了很长的时间。后来将tm版本换成了0.6-2版本的,手动安装。步骤如下:

  • 首先下载低版本点儿的tm二进制文件,任意放入一个路径下即可:tm_0.6-2.zip
  • 在Rstudio中,写代码直接手动安装:
    install.packages("C:/Users/35469/Documents/R/win-library/3.4/tm_0.6-2.zip",repos = NULL)

    注意引用的路径,repos=NULL 代表无依赖包

  • 引入下看看࿰

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值