原型聚类总结

概述

原型聚类是指聚类结构能通过一组原型刻画,原型是指样本空间中具有代表性的点。通常情况下,算法先对原型进行初始化,然后对原型进行迭代更新求解,下面是几种著名的原型聚类算法。

K均值算法

给定样本集合D,K均值算法针对聚类所得簇划分C,最小化平方误差
E=ki=1xCi||xμi||22
其中 μi=1|Ci|xCix 是簇 Ci 的均值向量。直观来看,这个误差刻画了簇内样本围绕簇均值向量的紧密程度,E值越小则簇内样本相似度越高。
K均值法采用贪心策略,通过迭代近似求解上式,算法首先随机选择k个向量作为初始均值向量,然后是迭代过程,根据均值向量将样本划分到距离最近的均值向量所在的簇中,划分完成之后更新新的均值向量,直到迭代完成。
代码见最后

二分K均值法

K均值法依赖于初始均值向量的选择,导致算法可能收敛到局部最小值,一种改进的方法是二分K均值法,这里的二分不是指算法课程中的二分,而是一分为二的意思。
二分K均值法初始时将所有点看成一个簇,在簇的数量小于K的时候进行迭代,算法的核心是选择一个簇一分为二,这里一分为二的方法还是K均值法,只不过K变成了2。二分K均值依次计算每个簇一分为二后新的总平方误差,选择划分后总体平方误差最小的簇进行划分,代码见最后。

学习向量量化LVQ

与K均值法类似,学习向量量化也是试图找到一组原型向量来刻画聚类结构,但不同的是,LVQ假设数据样本带有类别信息,学习过程利用样本的这些监督信息来辅助聚类,可看作通过聚类来形成类别的子类结构,每个子类对应一个聚类簇。
给定样本集,原型向量个数,各原型向量的类别标记,学习率,
算法首先初始化一组原型向量,可以从该类别中随机选取一个向量作为原型向量。初始化完成之后,开始迭代过程,每次从样本集中选取一个样本 x,y ,将这个样本划分到距离它最近的原型向量 p 所在的簇中,如果这两个向量的类别标记相同,那么更新p为
p=p+η(xp)
若类别标记不相同,更新p为
p=pη(x

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
原型聚类是一种基于数据点之间相似度度量的聚类算法。其主要思想是通过计算数据点之间的相似度(或距离),将相似度较高的数据点聚集成一个簇。相似度的计算方式有多种,如欧几里得距离、曼哈顿距离、余弦相似度等。其中,欧几里得距离是最常用的相似度计算方式。 原型聚类算法的核心是原型向量。原型向量是指每个簇中心点的坐标值,可以是任意一个数据点的坐标值。原型向量在聚类过程中不断更新,直到达到一定的收敛条件为止。 原型聚类算法主要分为两类:基于密度的原型聚类和基于距离的原型聚类。基于密度的原型聚类是指将原型向量设置在密度较高的区域,以便更好地捕捉簇的特征;而基于距离的原型聚类是指将原型向量设置在簇的中心位置,以便更好地表示簇的几何形状。 在基于密度的原型聚类算法中,最常用的算法是DBSCAN(Density-Based Spatial Clustering of Applications with Noise)。DBSCAN算法通过设置一个密度阈值,将密度较高的区域划分为一个簇。在这个簇的周围,如果有密度较低的点,则被视为噪声点。这种算法可以有效地处理数据中存在噪声点和数据分布不均匀的情况。 在基于距离的原型聚类算法中,最常用的算法是K-Means算法。K-Means算法是一种迭代算法,通过不断更新每个簇的中心点,直到达到收敛条件为止。具体实现过程中,首先随机初始化簇的中心点,然后将每个数据点分配到距离最近的簇中心点中。接着,根据簇内的数据点重新计算簇中心点,直到簇中心点不再发生变化为止。 原型聚类算法具有以下优点: 1. 算法简单易懂,实现较为容易。 2. 能够识别出数据中存在的噪声点。 3. 可以处理非球形簇和数据分布不均匀的情况。 但原型聚类算法也存在以下缺点: 1. 对于初始原型向量的选择较为敏感,不同的初始选择可能导致不同的聚类结果。 2. 对于数据量较大的情况,计算量较大,时间复杂度较高。 3. 对于数据存在重叠的情况,可能会导致识别出的簇之间存在重叠部分。 综上所述,原型聚类算法是一种简单有效的聚类算法,可以应用于各种领域的数据分析中。在实际应用中,需要根据具体的数据特点和分析目的选择合适的算法和调整参数,以获得更好的聚类效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值