聚类算法总结 划分法,层次聚类,基于网格,基于密度,谱聚类,基于模型,模糊聚类

划分法:

K-means:随机选择k个类的初始中心,对每一个样本都求解到k个中心点的距离,将它归类到距离最短的中心所在的类别。通过计算与类别内样本平均距离最小的点作为新的中心点。直到类别的聚类中心点不发生变化

算法的时间复杂度是O(nkt),n是所有对象的数目,k是簇的数目,t是迭代的次数,这个算法是局部收敛的。

它找到的是使平方误差函数值最小的k个划分,当簇是密集的,球状的时候,聚类效果比较好。


特点:当噪声点比较多的时候,会对均值产生极大影响。需要事先确定k,会随机选择初始点为质心,计算每一个样本与质心之间的相似度j

K-medoids:

K中心点与K均值的不同点在于中心点的选取,在 k-means 中,将中心点取为当前 cluster 中所有数据点的平均值,在 k-medoids 中,将中心点的选取限制在当前 cluster 所包含的数据点的集合中。换句话说,在 k-medoids 算法中,我们将从当前 cluster 中选取这样一个点——它到其他所有(当前 cluster 中的)点的距离之和最小——作为中心点。

K中心点特点:

不容易受到那些由于误差之类的原因产生的脏数据的影响,一般只适合小数据量。

层次聚类

凝聚和分裂采用自下而上和自上而下策略把对象组织到层次结构,

凝聚方法从每个对象作为一个集合开始,迭代的合并这些集合,形成更大的集合。与此相反,分裂方法开始将所有给定的对象放入同一个集合中,迭代的分裂集合,形成较小的集合。

如果需要,计算邻近度矩阵

(2)Repeat

(3)合并最接近的两个簇

(4)更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近性

(5)Until 仅剩下一个簇

邻近性度量:
(1)单链(MIN):邻近度定义为两个簇中任意两点之间的最短距离。擅长处理非椭圆形状的簇,对噪声和离群点很敏感。
(2)全链(团,MAX):邻近度定义为两个簇中任意两点之间的最长距离。
偏好球形簇,对噪声和离群点不太敏感,可能使大的簇破裂。
(3)组平均:两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。是介于单链和全链之间的折中方法。

  • 5
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值