概论
聚类是把数据对象集划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但是与其他簇中的对象很不相似。相异性和相似性根据描述对象的属性值评估,并且通常涉及距离度量。聚类作为一种数据挖掘工具已经根植于许多应用领域,如生物学、安全、商务智能和Web搜索。
聚类分析(cluster analysis)简称聚类(clustering),是一个把数据对象(或观测)划分成子集的过程。每个子集是一个簇(cluster),由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上,不同的聚类方法可能产生不同的聚类。划分不是通过人,而是通过聚类算法进行。聚类是有用的,因为他可能导致数据内事先未知的群组的发现。
聚类作为一种数据挖掘功能,聚类分析可以作为一种独立的工具,用来洞察数据的分布,观察每个簇的特征,将进一步分析集中在特定的簇集合上。另外,聚类分析可以作为其他算法(如特征化、属性子集选择和分类)的预处理步骤,之后这些算法将在检测到的簇和选择的属性或特征上进行操作。
在某些应用中,聚类又称作数据分割(data segmentation),因为它根据数据的相似性把大型数据集合划分成组。聚类还可以用于离群点分析(outlier detection),其中离群点(“远离”任何簇的值)可能比普通情况更值得注意。
作为统计学的分支,聚类分析已经被广泛地研究了许多年,主要集中在基于距离的聚类分析。基于k-均值(k-means)、k-中心点(k-medoids)和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中,如S-Plus、SPSS以及SAS。
<
读书笔记 -- 006_数据挖掘_聚类_概念知识
最新推荐文章于 2022-04-11 21:13:35 发布
聚类是数据挖掘中的重要工具,通过相似性度量将数据对象划分成多个簇,用于发现数据的自然群体和结构。常见的聚类方法包括基于划分的(如k-均值),层次的(凝聚和分裂),基于密度的(如DBSCAN)以及基于网格的方法。聚类分析要求包括可伸缩性、处理不同类型数据、发现任意形状簇、处理噪声数据等。在实际应用中,选择合适的聚类方法对结果的解释性和可用性至关重要。
摘要由CSDN通过智能技术生成