1.k-means
k-means 是所谓的爬山演算法,它非常依赖于你的初始集群中心所处的位置
2. SLC
SLC単连锁聚类,有点像最小生成树
把图中黑色的点分成两簇
3.软聚类 soft clustering
依赖概率论
4.EM算法
Em可以类比成k-means过程,即
EM算法是软聚类,开始时属于一个簇的概率很高比如0.999996,但属于另一个簇的也不是0。
发生的概率小,并不是0
5.非监督算法的三个属性
(1) Richness 丰富性:任何聚类算法来说,都有距离
(2) scale-invariance 尺度不变性:尺度距离是个正值,不改变聚类
(3) consistency 一致性:缩小簇内距离,增大簇内距离,不改变簇
看个例子:
不可能定理:这三个属性不可能同时满足,Kleinberg 的论文中已经证明
总结: