基于频繁项集的文本聚类（一）

最新推荐文章于 2024-01-18 02:04:07 发布

Ailah_H

最新推荐文章于 2024-01-18 02:04:07 发布

阅读量1.5k

点赞数 2

分类专栏：其他

本文链接：https://blog.csdn.net/H_lukong/article/details/94546553

版权

本文介绍了一种新的文本聚类方法，基于频繁项集。传统文本聚类方法面临高维度、大规模数据库和可理解性问题，而频繁项集可以通过关联规则挖掘有效解决这些问题。作者提出了FTC和HFTC算法，实验表明这些算法在保持聚类质量的同时提供了更好的可理解性描述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接Frequent Term-Based Text Clustering

译文author:王小黑*********************************************************

摘要

文本聚类方法可用于构造大量文本集或超文本。然鹅，众所周知的文本聚类方法不能真的解决特殊的文本聚类问题：数据的高维度、数据库的大规模、聚簇描述的可理解性。这篇文章中，我们介绍了一种新的方法，该方法用频繁项集来进行文本聚类。这种频繁项集能通过关联规则挖掘算法高效的发现。为了基于频繁项集进行聚类，我们测量频繁集相对于支持文档集的相互重叠部分，提出了两种基于频繁项集的文本聚类算法：用于平面聚类的FTC和用于层次聚类的HFTC。对经典文本文档以及web文档的一个实验评估表明，与最先进技术的文本聚类算法相比，所提出的算法能够更有效地获得具有可比质量的聚类。此外，我们的方法提供了一种通过频繁项集发现聚簇的可理解性描述。

关键词：聚类；频繁项集；文本文档

1简介

万维网继续以惊人的速度增长。一方面，在组织内部网中管理的文本和超文本数量也在快速增长，这些文本代表组织积累的知识，这些知识对于他们在当今信息社会中的成功变得越来越重要。由于网络和组织内部网的大规模、高动态性和多样性，对一些用户或目的来说，发现真正相关的文本早已成为一个非常有挑战性的任务。例如：标准搜索引擎低精确度，因为通常大量不相关的网页与少量相关的网页一起返回。这种现象主要由于以下的事实：用户指定的关键词可能出现在不同的文本中，比如考虑术语“聚类”。因此，网络搜索引擎通常返回一长条结果列表，但是用户在其有限时间内，仅仅处理前几个结果。因此，大量真正相关的信息隐藏在一长条结果列表里而没有被发现。文本聚类方法可以用来构造大型结果文本集，使得用户可以交互式的浏览它们。在现代信息社会中，高效知识管理是一个主要的竞争性优势。构建公司内部网中可用的大型超文本集，可以再次使用文本聚类方法。

与之前的聚类应用相比，聚类（超）文本数据库必须解决三个主要的挑战：