【机器学习】层次聚类算法 CURE算法

最新推荐文章于 2024-08-29 23:49:55 发布

「已注销」

最新推荐文章于 2024-08-29 23:49:55 发布

阅读量4k

点赞数

分类专栏： Machine learning 文章标签：聚类算法机器学习 python

本文链接：https://blog.csdn.net/LU_ZHAO/article/details/105040370

版权

CURE算法是一种层次聚类方法，尤其适用于处理非球形和大小变化的类，同时对离群点具有较强的鲁棒性。它选择类中分散的代表点并进行收缩处理，通过多个代表点来适应类的几何形状。CURE通过随机采样和分割技术加速聚类过程，降低离群点的影响，适用于大型数据集。算法包括随机采样、分割、局部聚类、离群点处理和最终聚类等步骤。

摘要由CSDN通过智能技术生成

CURE算法是一种层次聚类算法。

层次聚类方法(Hierarchical Clustering Method) 是一种发展比较早、应用广泛的聚类方法，按采用“自顶向下(Top—Down)”和“自底向上(Bottom—Up)”两种方式，分别被称为分解型层次聚类法(Divisive Hierarehieal Clustering)和聚结型层次聚类法 (Agglomerative Hierarchical Clustering)。

绝大多数聚类算法或者擅长处理球形和相似大小的聚类，或者在存在孤立点时变得比较脆弱。 CURE采用了一种新颖的层次聚类算法，该算法选择基于质心和基于代表对象方法之间的中间策略。它不同于单个质心或对象来代表一个类，而是选择数据空间中固定数目的具有代表性的点。一个类的代表点通过如下方式产生：首先选择类中分散的对象，然后根据一个特定的分数或收缩因子“收缩”或移动它们。在算法的每一步，有最近距离的代表点对(每个点来自于一个不同的类)的两个类被合并。

每个类有多于一个的代表点使得CURE可以适应非球形的几何形状。类的收缩或凝聚可以有助于控制孤立点的影响。因此，CURE对孤立点的处理更加健壮，而且能够识别非球形和大小变化比较大的类。针对大型数据库，CURE采用随机取样和划分两种方法组合：一个随机样本首先被划分，每个划分被部分聚类。

算法采用簇中的多个代表点来表示一个簇，首先选择簇中距离质心最远的点做为第一个点，然后依次选择距离已选到的点最远的点，直到选到c
c个点为止（一般选择c≥10），这些点捕获了簇的形状和大小。然后将这些选取到的点根据参数α（0≤α≤1）向该簇的质心收缩，距离质心越远的点（例如离群点）的收缩程度越大，因此CURE对离群点是不太敏感的，这种方法可以有效的降低离群点带来的不利影响。

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】层次聚类算法 CURE算法

CURE算法是一种层次聚类算法。层次聚类方法(Hierarchical Clustering Method) 是一种发展比较早、应用广泛的聚类方法，按采用“自顶向下(Top—Down)”和“自底向上(Bottom—Up)”两种方式，分别被称为分解型层次聚类法(Divisive Hierarehieal Clustering)和聚结型层次聚类法 (Agglomerative Hierarchica...
复制链接

扫一扫

专栏目录