文本聚类算法

最新推荐文章于 2025-03-13 22:48:57 发布

shaobo Huang

最新推荐文章于 2025-03-13 22:48:57 发布

阅读量6.1k

点赞数 1

分类专栏：算法

本文链接：https://blog.csdn.net/weixin_42788078/article/details/107929817

版权

本文详细介绍了文本聚类的思想、一般步骤及常用算法，包括K-means、BIRCH、GMM（高斯混合模型）和GAAC（凝聚层次聚类）。讨论了各种算法的优缺点，如K-means的快速简单与受K值影响，BIRCH的内存效率，GMM的统计学习方法，以及GAAC的层次聚类法。对于文本聚类，选择合适的算法至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 聚类思想

聚类是一种无监督学习。也就是说，聚类是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息聚类的一种方法。聚类的思想是使得属于同类别的对象之间的差别尽可能的小，而不同类别上的对象的差别尽可能的大。与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。

2 文本聚类一般步骤

2.1 文本表示（Text Representation）

把文档表示成聚类算法可以处理的形式。

2.2 聚类算法选择或设计（Clustering Algorithms）

算法的选择，往往伴随着相似度计算方法的选择。在文本挖掘中，最常用的相似度计算方法是余弦相似度。聚类算法有很多种，但是没有一个通用的算法可以解决所有的聚类问题。因此，需要认真研究要解决的问题的特点，以选择合适的算法。

2.3 聚类评估（Clustering Evaluation）

因为没有训练文档集合，所以评测聚类效果是比较困难的。常用的方法是：选择人工已经分好类或者做好标记的文档集合作为测试集合，聚类结束后，将聚类结果与已有的人工分类结果进行比较。常用评测指标也是查全率、查准率及F1值。

3 常用文本聚类算法

3.1 K-means

作为基于距离的典型聚类算法，“K-means”一词最早于1967年被加州大学的詹姆斯麦奎恩（James MacQueen）首次使用，而其算法思想则可以追溯到术语提出的十年之前——1957年，斯图尔特劳埃德（Stuart Lloyd）在研究一种脉冲码调制技术时首先研发了 K-means 的标准算法，遗憾的是，其学术成果直到1982年才被贝尔实验室公开出版。在此之间的1965年，福吉（E.W.Forgy）在《Biometrics》发表了本质上相同的方法，因此， K-means 算法有时也被人们称为 Lloyd-Forgy 方法。

已知数据集 $D={x1,x2,...xn}$ ，其中每一个样本都可以由一个 d 维实向量表示， K-means 聚类的目的便是要将数据集中的这 n 个样本划分到 k 个集合之中（k 小于等于 n），使得各个集合的组内平方和（Within-Cluster Sum of Squares）最小。该问题也可以由下式表示：
在这里插入图片描述

其中，S 为样本的聚类， $μ i$ 则为 $S i$ 中所有点的均值向量。

在文本聚类中，文本数据集中的每一个样本（我们将其简单称为“文档”）都可以由一个文档特征向量表示，被划分为同一个集合的文档在 K-means 中也被称之为属于同一个簇（cluster），而用于规定簇的中心点则本称为质心（centroid），当一个向量到某个质心的距离小于其至其他所有质心的距离时，这个向量对应的文档将本划分入质心所对应的簇中。为了在文本数据分析中达到文本聚类的目标，K-means 聚类的算法过程通常分为以下步骤：

1）文本数据集中随机选取K个文档，作为初始的质心；

2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心对应的簇；

3）通过求中心向量的方式重新计算已经得到的各个簇的质心；

4）迭代2～3步直至新的质心与原质心相等或小于指定阈值（或是迭代次数达到外生给定的最大次数），算法结束。

K-means 算法的主要优势在于快速简单、对大数据集有较高的效率，在分析大量文本数据时相比与其他聚类算法更加实用，而其缺点在于容易受 K 值、初始类质心样本选择或初始类划分的影响，在进行文本聚类时，确定最优的 K 值往往需要花费大量的时间资源。

3.2 BIRCH

BIRCH 算法，全称为利用层次方法的平衡迭代规约和聚类（Balanced Iterative Reducing and Clustering Using Hierarchies），这一在1996年由 Tian Zhang 提出来的聚类算法。虽然名字冗长拗口，但 BIRCH 算法却是广受学界认可的一种节约内存资源的高质量聚类方法。

相比于其他多遍扫描的聚类算法， BIRCH 算法利用了树结构来帮助我们快速的聚类，我们一般将 BIRCH 算法中的这种树结构称之为聚类特征树(Clustering Feature Tree，CF Tree)。聚类特征（Clustering Feature，CF）是聚类特征树的重要概念，它可以被理解为在聚类特征树某一节点上对样本划分的一种状态，其定义可由下式表示：
在这里插入图片描述