文本聚类算法

本文详细介绍了文本聚类的思想、一般步骤及常用算法,包括K-means、BIRCH、GMM(高斯混合模型)和GAAC(凝聚层次聚类)。讨论了各种算法的优缺点,如K-means的快速简单与受K值影响,BIRCH的内存效率,GMM的统计学习方法,以及GAAC的层次聚类法。对于文本聚类,选择合适的算法至关重要。
摘要由CSDN通过智能技术生成

1 聚类思想

聚类是一种无监督学习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。聚类的思想是使得属于同类别的对象之间的差别尽可能的小,而不同类别上的对象的差别尽可能的大。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空 间区分规则来定义组。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。

2 文本聚类一般步骤

2.1 文本表示(Text Representation)

把文档表示成聚类算法可以处理的形式。

2.2 聚类算法选择或设计(Clustering Algorithms)

算法的选择,往往伴随着相似度计算方法的选择。在文本挖掘中,最常用的相似度计算方法是余弦相似度。聚类算法有很多种,但是没有一个通用的算法可以解决所有的聚类问题。因此,需要认真研究要解决的问题的特点,以选择合适的算法。

2.3 聚类评估(Clustering Evaluation)

因为没有训练文档集合,所以评测聚类效果是比较困难的。 常用的方法是: 选择人工已经分好类或者做好标记的文档集合作为测试集合,聚类结束后,将聚类结果与已有的人工分类结果进行比较。常用评测指标也是查全率、查准率及F1值。

3 常用文本聚类算法

3.1 K-means

作为基于距离的典型聚类算法,“K-means”一词最早于1967年被加州大学的詹姆斯麦奎恩(James MacQueen)首次使用,而其算法思想则可以追溯到术语提出的十年之前——1957年,斯图尔特劳埃德(Stuart Lloyd)在研究一种脉冲码调制技术时首先研发了 K-means 的标准算法,遗憾的是,其学术成果直到1982年才被贝尔实验室公开出版。在此之间的1965年,福吉(E.W.Forgy)在《Biometrics》发表了本质上相同的方法,因此, K-means 算法有时也被人们称为 Lloyd-Forgy 方法。

已知数据集 D = x 1 , x 2 , . . . x n D={x1,x2,...xn} D=x1,x2,...xn,其中每一个样本都可以由一个 d 维实向量表示, K-means 聚类的目的便是要将数据集中的这 n 个样本划分到 k 个集合之中(k 小于等于 n),使得各个集合的组内平方和(Within-Cluster Sum of Squares)最小。该问题也可以由下式表示:
在这里插入图片描述

其中,S 为样本的聚类, μ i μi μi则为 S i Si Si中所有点的均值向量。

在文本聚类中,文本数据集中的每一个样本(我们将其简单称为“文档”)都可以由一个文档特征向量表示,被划分为同一个集合的文档在 K-means 中也被称之为属于同一个簇(cluster),而用于规定簇的中心点则本称为质心(centroid),当一个向量到某个质心的距离小于其至其他所有质心的距离时,这个向量对应的文档将本划分入质心所对应的簇中。为了在文本数据分析中达到文本聚类的目标,K-means 聚类的算法过程通常分为以下步骤:

1)文本数据集中随机选取K个文档,作为初始的质心;

2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心对应的簇;

3)通过求中心向量的方式重新计算已经得到的各个簇的质心;

4)迭代2~3步直至新的质心与原质心相等或小于指定阈值(或是迭代次数达到外生给定的最大次数),算法结束。

K-means 算法的主要优势在于快速简单、对大数据集有较高的效率,在分析大量文本数据时相比与其他聚类算法更加实用,而其缺点在于容易受 K 值、初始类质心样本选择或初始类划分的影响,在进行文本聚类时,确定最优的 K 值往往需要花费大量的时间资源。

3.2 BIRCH

BIRCH 算法,全称为利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing and Clustering Using Hierarchies),这一在1996年由 Tian Zhang 提出来的聚类算法。虽然名字冗长拗口,但 BIRCH 算法却是广受学界认可的一种节约内存资源的高质量聚类方法。

相比于其他多遍扫描的聚类算法, BIRCH 算法利用了树结构来帮助我们快速的聚类,我们一般将 BIRCH 算法中的这种树结构称之为聚类特征树(Clustering Feature Tree,CF Tree)。聚类特征(Clustering Feature,CF)是聚类特征树的重要概念,它可以被理解为在聚类特征树某一节点上对样本划分的一种状态,其定义可由下式表示:
在这里插入图片描述

可以看到,我们将聚类特征表示为一个三元组结构,其中 N 为这个聚类特征中拥有的样本点的数量, LS 为这个聚类特征中拥有的样本点各特征维度的和向量, SS 则代表这个聚类特征中拥有的样本点各特征维度的平方和向量。聚类特征CF有一个很好的性质,就是满足线性关系,也就是说两个聚类特征可以进行相加,且有

C F 1 + C F 2 = ( N 1 + N 2 , L S 1 + L S 2 , S S 1 +

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值