关于GSDMM的数学思考
GSDMM是一种基于狄利克雷多项式混合模型的收缩型吉布斯采样算法(a collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model)的简称,它是发表在2014年KDD(数据挖掘及知识发现会议,ACM SIGKDD,数据挖掘顶级会议[1])上的论文《A Dirichlet Multinomial Mixture Model-based Approach for Short Text Clustering》的数学模型[2]。
GSDMM主要用于短文本聚类,短文本聚类是将大量的短文本(例如微博、评论等)根据计算某种相似度进行聚集,最终划分到几个类中的过程。GSDMM主要具备以下优点[3]:
- 可以在完备性和一致性之间保持平衡;
- 可以很好的处理稀疏、高纬度的短文本;
- 较其它的聚类算法,在性能上表现更为突出。
第1条优点的完备性体现在所有参入计算的短文本最终都能被聚集到某一个具体的族簇中,而一致性体现在被聚集到同一个族簇的所有短文本都具备较为强的相似性,即这些短文本在某种程度上都是跟同一事物有关的微博或者评论(如果数据集采用的是微博或者评论的文本数据)。由于短文本的特点(文本篇幅短而且用词重复率非常低)以及最终所采用的数据集能够得到一个很好的结果,故而第2条优点能够很好的被证明。第3条优点的依据如图1和表1。
图1中的横、纵坐标分别表示评价度量方式和性能表现(基于数据可视化的考虑,该性能表现基于不同的评价度量方式进行了归一化处理),其中NMI(Normalized Mutual Information)表示归一化互信息指数,H(Homogeneity)表示一致性指数,C(Completeness)表示完备性指数,ARI(Adjusted Rand Index)表示调整的兰德指数,AMI(Adjusted Mutual Information)调整的互信息指数。K-means是指K均值聚类算法,是一种在数据挖掘与分析领域非常流行的矢量量化方法[4];HAC是一种层次聚类分析方法[5];DMAFP是一种具备去噪能力的长文本聚类方法[6]。
图1 GSDMM和其它三种聚类算法的在TweetSet数据集上的性能表现
表1 GSDMM和其它两种聚类算法的在三个数据集上的性能表现
数据集 | 指标 | GSDMM | K-means | DMAFP |
---|---|---|---|---|
TSet | NMI | 0.874±0.007 | 0.732±0.007 | 0.852±0.009 |