数据挖掘中的聚类算法综述

1.聚合聚类的策略是先将每个对象各自作为一个原子聚类,然后对这些原子聚类逐层进行聚合,直至满足一定的终止条件;后者则与前者相反,它先将所有的对象都看成一个聚类,然后将其不断分解直至满足终止条件

2.分割聚类算法是另外一种重要的聚类方法。它先将数据点集分为 ! 个划分,然后从这 ! 个初始划分开始,通过重复的控制策略使某个准则最优化以达到最终的结果。

3.基于网格的聚类可以处理任意类型的数据,但以降低聚类的质量和准确性为代价,。CLIOUE也是一个基于网格的聚类算法,它结合了网格聚类与密度聚类的思想,对于处理大规模高维数据具有较好的效果。

4.基于图论的聚类一个优点在于它不需要进行一些相似度的计算,就能把聚类问题映射为图论中的一个组合优化问题。

5.概率聚类算法具有另外几个重要的特性:①能处理具有复杂结构的记录;②能够连续处理成批的数据;③具有在线处理能力;④产生的聚类结果易于解释。

6.最近邻距离的计算,通过只保留数据点的 " 个最近邻居从而简化了相似矩阵,并且也保留了与每个数据点相连的最近邻居的个数,但是其时间复杂度也提高到了 o($2)($ 为数据点个数)。

7.K-medoids 方法具有两个优点:它能处理任意类型的属性;它对异常数据不敏感。

原始K-means 算法:①聚类结果的好坏依赖于对初始聚类中心的选择;②容易陷入局部最优解;③对 " 值的选择没有准则可依循;④对异常数据较为敏感;⑤只能处理数值属性的数据,不能用于类别属性的数据;⑤聚类结果可能不平衡。

8.自组织映射具有两个主要特点:!它是一种递增的方法,即所有的数据点是逐一进行处理的;"它能将聚类中心点映射到一个二维的平面上,从而实现可视化。

9.在基于进化理论的聚类方法中,模拟退火的应用经常使用到微扰因子,其作用等同于把一个点从当前的聚类重新分配到一个随机选择的新类别中。

10.遗传算法也可以用于聚类处理,它主要通过选择、交叉和变异这三种遗传算子的运算以不断优化可选方案从而得到最终的聚类结果。

11.对高维数据聚类的困难主要来源于以下两个因素:!高维属性空间中那些无关属性的出现使得数据失去了聚类趋
势;"高维使数据之间的区分界限变得模糊。除了降维这一最直接的方法之外,对高维数据的聚类处理还包括子空间聚类以及联合聚类技术等。

12.子空间聚类的思想,它基于对原始空间在二维平面上的一个投影处理。

13.联合聚类对数据点和它们的属性同时进行聚类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值