读论文笔记（1）——web文本挖掘技术研究-CSDN博客

本文链接：https://blog.csdn.net/iteye_15311/article/details/82027602

刚开始接触，从中文的开始，有点大概的了解吧。。。
-------------------------------------------------------------
提到的文本聚类：
大致可以分类为两种类型：
（1）[size=large]以G-HAC等算法为代表的层次凝聚法[/size]
（Mladenic D. feature subset in text-learning. In proc of the 10th European conf. on Machine learning ECML98,1998）
（2）[size=large]以K-MEANS等算法为代表的平面划分法[/size]
（Sagar N. Sublanguage: Linguistic Phenomenon ,Computational Tool. 1986）

文本特征表示中，[size=large]矢量空间模型（VSM）[/size]应用较多。

层次凝聚：简单说就是对文档集中的每个文档进行相似度计算，把相似度最近的两个文档合并，重复步骤，直到只剩下一个簇为止。相当于构造了一颗生成树。
（缺点：运行速度慢，不适合大量文档的集合）

平面划分：确定要生产的聚类数目，生成这么多个数目的种子，然后计算文档与种子之间的距离，按最近原则划分，重复，直到聚类结果稳定。
（缺点，种子选取的好坏对结果有很大的影响）