数据挖掘--聚类分析

聚类分析的算法可以分为以下几大类:划分法、层次法、基于网格的方法、基于密度的方法和基于模型的方法。以下是集中常见聚类分析的基本思想:

1. 划分法(partitioning methods)

          给定一个由n远足或数据组成的数据集,划分法将构造k个分组,每一个分组代表一个聚类,k<=n。

         同时k个分组必须满足以下几个条件:

         ① 每个分组至少包含一个数据对象;

         ② 每个数据记录属于且仅属于一个分组(在某些模糊聚类算法中可以放宽);

         对于给定的参数k,算法首先给出一个初始分组方法,使得每次改进之后的分组方法都较前一次好,而好的一般标准是:同一分组中记录越近越好,而不同方案中记录越远越     好。使用这个基本思想的算法有k-means,k-medoids,CLARANCE。


2. 层次法(hierarchical methods)

         对给定的数据集进行层次分解,直到某种条件满足为止。

         代表算法有:BIRCH算法、CURE算法、CHAMELEON算法。


3. 基于密度的方法(density-based methods)

        不是基于各种距离,而是基于密度。

        代表算法:DBSCAN算法、OPTICS算法、基于分析密度函数值分布的聚类对象算法。


4. 基于网格的算法(grid-based methods)

        首先将数据空间划分成为有限个单元的网格结构,所有的处理都以单个的单元为对象。

        代表算法:STING算法、CLIQUE算法、Wave-Cluster算法。


5. 基于模型的方法(model-based methods)

         给每一个聚类假定一个模型,然后去寻找数据对给定模型的最佳拟合。目标数据集是由一系列的概率分布所决定,通常包括统计的方案和神经网络的方案。


典型的聚类过程主要包括:数据准备、特征选择和提取、近似度计算、聚类、对聚类结果进行有效性评估等步骤。
























评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值