原文链接Frequent Term-Based Text Clustering
译文author:王小黑*********************************************************
摘要
文本聚类方法可用于构造大量文本集或超文本。然鹅,众所周知的文本聚类方法不能真的解决特殊的文本聚类问题:数据的高维度、数据库的大规模、聚簇描述的可理解性。这篇文章中,我们介绍了一种新的方法,该方法用频繁项集来进行文本聚类。这种频繁项集能通过关联规则挖掘算法高效的发现。为了基于频繁项集进行聚类,我们测量频繁集相对于支持文档集的相互重叠部分,提出了两种基于频繁项集的文本聚类算法:用于平面聚类的FTC和用于层次聚类的HFTC。对经典文本文档以及web文档的一个实验评估表明,与最先进技术的文本聚类算法相比,所提出的算法能够更有效地获得具有可比质量的聚类。此外,我们的方法提供了一种通过频繁项集发现聚簇的可理解性描述。
关键词:聚类;频繁项集;文本文档
1简介
万维网继续以惊人的速度增长。一方面,在组织内部网中管理的文本和超文本数量也在快速增长,这些文本代表组织积累的知识,这些知识对于他们在当今信息社会中的成功变得越来越重要。由于网络和组织内部网的大规模、高动态性和多样性,对一些用户或目的来说,发现真正相关的文本早已成为一个非常有挑战性的任务。例如:标准搜索引擎低精确度,因为通常大量不相关的网页与少量相关的网页一起返回。这种现象主要由于以下的事实:用户指定的关键词可能出现在不同的文本中,比如考虑术语“聚类”。因此,网络搜索引擎通常返回一长条结果列表,但是用户在其有限时间内,仅仅处理前几个结果。因此,大量真正相关的信息隐藏在一长条结果列表里而没有被发现。文本聚类方法可以用来构造大型结果文本集,使得用户可以交互式的浏览它们。在现代信息社会中,高效知识管理是一个主要的竞争性优势。构建公司内部网中可用的大型超文本集,可以再次使用文本聚类方法。
与之前的聚类应用相比,聚类(超)文本数据库必须解决三个主要的挑战:
- 非常高维度的数据(~1000维度):这个要求有处理稀疏数据空间或降维方法的能力
- 非常大规模的数据库(尤其是万维网):因此,聚类算法必须非常高效以及可扩展到大型数据库
- 聚簇的可理解描