基于频繁项集的文本聚类(一)

本文介绍了一种新的文本聚类方法,基于频繁项集。传统文本聚类方法面临高维度、大规模数据库和可理解性问题,而频繁项集可以通过关联规则挖掘有效解决这些问题。作者提出了FTC和HFTC算法,实验表明这些算法在保持聚类质量的同时提供了更好的可理解性描述。
摘要由CSDN通过智能技术生成

原文链接Frequent Term-Based Text Clustering

译文author:王小黑*********************************************************

摘要

       文本聚类方法可用于构造大量文本集或超文本。然鹅,众所周知的文本聚类方法不能真的解决特殊的文本聚类问题:数据的高维度、数据库的大规模、聚簇描述的可理解性。这篇文章中,我们介绍了一种新的方法,该方法用频繁项集来进行文本聚类。这种频繁项集能通过关联规则挖掘算法高效的发现。为了基于频繁项集进行聚类,我们测量频繁集相对于支持文档集的相互重叠部分,提出了两种基于频繁项集的文本聚类算法:用于平面聚类的FTC和用于层次聚类的HFTC。对经典文本文档以及web文档的一个实验评估表明,与最先进技术的文本聚类算法相比,所提出的算法能够更有效地获得具有可比质量的聚类。此外,我们的方法提供了一种通过频繁项集发现聚簇的可理解性描述。

关键词:聚类;频繁项集;文本文档

1简介

      万维网继续以惊人的速度增长。一方面,在组织内部网中管理的文本和超文本数量也在快速增长,这些文本代表组织积累的知识,这些知识对于他们在当今信息社会中的成功变得越来越重要。由于网络和组织内部网的大规模、高动态性和多样性,对一些用户或目的来说,发现真正相关的文本早已成为一个非常有挑战性的任务。例如:标准搜索引擎低精确度,因为通常大量不相关的网页与少量相关的网页一起返回。这种现象主要由于以下的事实:用户指定的关键词可能出现在不同的文本中,比如考虑术语“聚类”。因此,网络搜索引擎通常返回一长条结果列表,但是用户在其有限时间内,仅仅处理前几个结果。因此,大量真正相关的信息隐藏在一长条结果列表里而没有被发现。文本聚类方法可以用来构造大型结果文本集,使得用户可以交互式的浏览它们。在现代信息社会中,高效知识管理是一个主要的竞争性优势。构建公司内部网中可用的大型超文本集,可以再次使用文本聚类方法。

       与之前的聚类应用相比,聚类(超)文本数据库必须解决三个主要的挑战:

  • 非常高维度的数据(~1000维度):这个要求有处理稀疏数据空间或降维方法的能力
  • 非常大规模的数据库(尤其是万维网):因此,聚类算法必须非常高效以及可扩展到大型数据库
  • 聚簇的可理解描
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值