基于K－Means的文本聚类

最新推荐文章于 2024-06-09 09:43:01 发布

freesum

最新推荐文章于 2024-06-09 09:43:01 发布

阅读量3w

点赞数 5

分类专栏：文本挖掘文章标签：算法文档 validation distance algorithm 资讯

本文链接：https://blog.csdn.net/freesum/article/details/7376006

版权

本文介绍了聚类的基本概念，包括聚类过程、聚类准则、特征类型和聚类算法的分类。重点讲解了k-means算法，阐述了其算法过程、优缺点，并探讨了在文本聚类中如何利用TD-IDF衡量单词重要性。k-means通过迭代寻找最佳聚类中心，对文本数据进行有效分类。

摘要由CSDN通过智能技术生成

何为聚类

“聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset）,这样让在同一个子集中的成员对象都有相似的一些属性。” ——wikipedia

“聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。”

——百度百科

简单理解，如果一个数据集合包含N个实例，根据某种准则可以将这N个实例划分为m个类别，每个类别中的实例都是相关的，而不同类别之间是区别的也就是不相关的，这个过程就叫聚类了。

聚类过程

1）特征选择(feature selection)：就像其他分类任务一样，特征往往是一切活动的基础，如何选取特征来尽可能的表达需要分类的信息是一个重要问题。表达性强的特征将很影响聚类效果。这点在以后的实验中我会展示。
2）近邻测度(proximity measure)：当选定了实例向量的特征表达后，如何判断两个实例向量相似呢？这个问题是非常关键的一个问题，在聚类过程中也有着决定性的意义，因为聚类本质在区分相似与不相似，而近邻测度就是对这种相似性的一种定义。
3）聚类准则(clustering criterion)：定义了相似性还不够，结合近邻测度，如何判断相似才是关键。直观理解聚类准则这个概念就是何时聚类，何时不聚类的聚类条件。当我们使用聚类算法进行计算时，如何聚类是算法关心的，而聚与否需要一个标准，聚类准则就是这个标准。（话说标准这东西一拿出来，够吓人了吧^_^）
4）聚类算法(clustering algorithm)：这个东西不用细说了吧，整个学习的重中之重，核心的东西这里不讲，以后会细说，简单开个头——利用近邻测度和聚类准则开始聚类的过程。
5）结果验证(validation of the results)：其实对于PR的作者提出这个过程也放到聚类任务流程中，我觉得有点冗余，因为对于验证算法的正确性这事应该放到算法层面吧，可以把4）和5）结合至一层。因为算法正确和有穷的验证本身就是算法的特性嘛。（谁设计了一个算法不得证明啊）
6）(interpretation of the results)：中文版的PR上翻译为结果判定，而我感觉字面意思就是结果解释。（聚类最终会将数据集分成若干个类，做事前要有原则，做事后要有解释，这个就是解释了。自圆其说可能是比较好的了^_^）