用R语言实现文本挖掘（tm）、聚类

最新推荐文章于 2024-08-17 21:23:07 发布

紫夜馨空

最新推荐文章于 2024-08-17 21:23:07 发布

阅读量8.1k

点赞数 9

文章标签： R

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41931965/article/details/83831921

版权

本文介绍了如何使用R语言进行文本挖掘，包括安装Rwordseg和tm包来处理中文分词和创建词频矩阵，以及解决分词后文件的乱码问题。在处理过程中，作者遇到了R版本不兼容、编码问题和tm包导致的乱码问题，通过降级tm包版本解决了这些问题。最后，文章提到了层次聚类的应用，并分享了修改RStudio字体和背景颜色的方法。

摘要由CSDN通过智能技术生成

最近因为写毕业论文，想要找找怎样能够识别不相干方法评论，结果看到了R语言中使用K-mean聚类，可以查看不在聚类范围类的，输出异常的评论。由于K-mean聚类是针对数值型数据的，所以在运用K-mean聚类算法对文本进行主题聚类时，需要经历分词、词向量、文档-词矩阵等，用到了几个包。我原先针对这部分的文本分析主要时用Python中的结巴工具分词、提出关键词、LDA主题分类等方法。今天想要试试用R语言处理下看看

安装的包

1、Rwordseg rJava

所需要的中文分词包Rwordseg, rjava包。

install.packages("rJava")

install.packages("Rwordseg") #安装时出现了以下错误

Warning in install.packages :
package ‘Rwordseg’ is not available (for R version 3.4.3)

参考这位帖子里面的解决方法：http://f.dataguru.cn/forum.php?mod=viewthread&tid=558124

由于我的是64位的，按照帖子的解决方法一，按照时总时出现错误，因为下载的是Win32位的应用程序。所以我采用了方法二，自己手动下载，再解压缩到R语言安装包的目录下。

2、tm

install.packages("tm")

在后面做文本处理生成词频矩阵DocumentTermMatrix时，出现了中文乱码的问题，在解决这个问题上花费了很长的时间。后来将tm版本换成了0.6-2版本的，手动安装。步骤如下：

首先下载低版本点儿的tm二进制文件，任意放入一个路径下即可：tm_0.6-2.zip
在Rstudio中，写代码直接手动安装：
```
install.packages("C:/Users/35469/Documents/R/win-library/3.4/tm_0.6-2.zip",repos = NULL)
```
注意引用的路径，repos=NULL 代表无依赖包
引入下看看࿰

最低0.47元/天解锁文章

关注

9
点赞
踩
104

收藏

觉得还不错? 一键收藏
9
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

紫夜馨空 CSDN认证博客专家 CSDN认证企业博客

码龄7年

12: 原创

54万+: 周排名

123万+: 总排名

4万+: 访问

: 等级

553: 积分

13: 粉丝

23: 获赞

25: 评论

239: 收藏

私信

关注

分类专栏

工具 1篇
pyspark 1篇
python 3篇

最新评论

Bitvise ssh client工具
_孤臣_: 能发一下吗？救救
Bitvise ssh client工具
_孤臣_: 大佬还能再发一下吗
Bitvise ssh client工具
Violet耀: 重新发一下第二个谢谢
Bitvise ssh client工具
QHB: 请问提取码是多少
Pandas | 频数统计使用value_counts的五个技巧
CSDN-Ada助手: 非常感谢CSDN博主分享的关于Pandas的技巧，我觉得这篇博客很实用，可以帮助读者更好地使用value_counts进行频数统计。对于下一篇博客，我建议可以写一篇关于Pandas数据清洗的技巧，比如如何处理缺失值、重复值等问题，这样的技术文章对其他用户也会非常有帮助。相信会有更多读者期待你的下一篇文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。