读书笔记 -- 006_数据挖掘_聚类_概念知识

概论

聚类是把数据对象集划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但是与其他簇中的对象很不相似。相异性和相似性根据描述对象的属性值评估,并且通常涉及距离度量。聚类作为一种数据挖掘工具已经根植于许多应用领域,如生物学、安全、商务智能和Web搜索。

聚类分析(cluster analysis)简称聚类(clustering),是一个把数据对象(或观测)划分成子集的过程。每个子集是一个簇(cluster),由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上,不同的聚类方法可能产生不同的聚类。划分不是通过人,而是通过聚类算法进行。聚类是有用的,因为他可能导致数据内事先未知的群组的发现。

聚类作为一种数据挖掘功能,聚类分析可以作为一种独立的工具,用来洞察数据的分布,观察每个簇的特征,将进一步分析集中在特定的簇集合上。另外,聚类分析可以作为其他算法(如特征化、属性子集选择和分类)的预处理步骤,之后这些算法将在检测到的簇和选择的属性或特征上进行操作。

在某些应用中,聚类又称作数据分割(data segmentation),因为它根据数据的相似性把大型数据集合划分成组。聚类还可以用于离群点分析(outlier detection),其中离群点(“远离”任何簇的值)可能比普通情况更值得注意。

作为统计学的分支,聚类分析已经被广泛地研究了许多年,主要集中在基于距离的聚类分析。基于k-均值(k-means)、k-中心点(k-medoids)和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中,如S-Plus、SPSS以及SAS。

<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值