主讲人 网络上的尼采
(新浪微博: @Nietzsche_复杂网络机器学习)
网络上的尼采(813394698) 9:10:56
今天的主要内容有k-means、混合高斯模型、 EM算法。
对于k-means大家都不会陌生,非常经典的一个聚类算法,已经50多年了,关于clustering推荐一篇不错的survey:Data clustering: 50 years beyond K-means。k-means表达的思想非常经典,就是对于复杂问题分解成两步不停的迭代进行逼近,并且每一步相对于前一步都是递减的。
k-means有个目标函数 :
假设有k个簇,是第k个簇的均值;每个数据点都有一个向量表示属于哪个簇,rnk是向量的元素,如果点xn属于第k个簇,则rnk是1,向量的其他元素是0。
上面这个目标函数就是各个簇的点与簇均值的距离的总和,k-means要做的就是使这个目标函数最小。 这是个NP-hard问题,k-means只能收敛到局部最优。
算法的步骤非常简单:
先随机选k个中心点
第一步也就是E步把离中心点近的数据点划分到这个簇里;
第二步M步根据各个簇里的数据点重新确定均值,也就是中心点。
然后就是迭代第一步和第二步,直到满足收敛条件为止。
自强<ccab4209211@qq.com> 9:29:00
收敛是怎么判断的呀?
网络上的尼采(813394698) 9:30:16
不再发生大的变化。大家思考下不难得出:无论E步还是M步,目标函数都比上一步是减少的。 下面是划分两个簇的过程 :
下面这个图说明聚类过程中目标函数单调递减,经过三轮迭代就收敛了,由于目标函数只减不增,并且有界,所以k-means是可以保证收敛的:
书里还举例一个k-means对图像分割和压缩的例子:
图像分割后,每个簇由均值来表示,每个像素只存储它属于哪个簇就行了。压缩后图像的大小是k的函数 :
现在讨论下k-means的性质和不足 :
首先对初值敏感 ,由于只能收敛到局部最优,初值很大程度上决定它收敛到哪里;
从算法的过程可以看出,k-means对椭球形状的簇效果最好 ,不能发现任意形状的簇;
对孤立点干扰的鲁棒性差,孤立点是异质的,可以说是均值杀手,k-means又是围绕着均值展开的,试想下,原离簇的孤立点对簇的均值的拉动作用是非常大的。
针对这些问题后来又有了基于密度的DBSCAN算法,最近Science上发了另一篇基于