R语言做文本挖掘 Part3文本聚类

R语言实战：文本聚类分析详解

最新推荐文章于 2024-08-07 12:28:24 发布

原创

最新推荐文章于 2024-08-07 12:28:24 发布 · 1.8w 阅读

59 ·

CC 4.0 BY-SA版权

本文介绍了R语言进行文本聚类的步骤，包括使用kmeans、hclust和kernel聚类等方法。通过将文本转换为矩阵，利用tm包进行预处理，然后应用不同的聚类算法，得出文本的分类结果。讨论了各种聚类算法的优缺点，并展示了部分结果。

Part3文本聚类

【发现有人转载，决定把格式什么重新整理一遍，有时间做个进阶版文本挖掘，恩！原文地址：CSDN-R语言做文本挖掘 Part3文本聚类】

分类和聚类算法，都是数据挖掘中最常接触到的算法，分类聚类算法分别有很多种。可以看下下面两篇文章对常见的分类聚类算法的简介：

分类算法：http://blog.csdn.net/chl033/article/details/5204220

聚类算法：http://blog.chinaunix.net/uid-10289334-id-3758310.html

文本分类聚类会要用到这些算法去实现，暂时不用深究算法细节，R中已经有成熟的可以直接调用的这些算法了。大概说下分类和聚类的差异，照我的理解，分类算法和聚类算法最后实现的效果是相同的，都是给一个集合划分成几个类别。不同的是分类算法是根据已知的确定类别去做划分，所以分类需要训练集，有训练、测试、预测这个过程；而聚类则未规定类别，它是基于给定集合的里面的内容，根据内容的相似度去给集合划分成指定的几个类（你可以指定划分成多少个类，而不是指定有哪些类），这些相似度的测量就是聚类算法的核心，这个度量标准可以是欧几里得距离、是曼哈顿距离、是切比雪夫距离等等。它们分别叫做有监督分类和无监督分类，这种说法不是很确切，参考这个文章分类与聚类，监督学习与无监督学习，有其差异的说明。

还是用Part2里面的例子。做聚类不需要训练集，将文本内容做完分词处理，也就是Part2里面2.对某品牌官微做分词，这里处理完得到的结果hlzjTemp，用这个做接下来的聚类工作。下图（图片来源：玩玩文本挖掘）是一个文本挖掘的过程，不管是分类还是聚类，都要经历前面一个过程将文本转为为Tem-Document Matrix。然后再做后续分析Analysis，及分类或者聚类。另一个参考：R语言进行中文分词和聚类

最低0.47元/天解锁文章