K-means算法简介
K-means算法也被称为K-平均或K-均值,是一种得到最广泛使用的聚类算法。它是将各个聚类子集中的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而是生成的每个聚类内部紧凑,类间独立。
K-means聚类是属于无监督学习的,以往的回归、朴素贝叶斯、SVM等都是有类别数值标签Y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特性x,聚类的目的是找到每个样本x潜在的类别y,并将同类别y的x放在一起。
在聚类问题中,给我们的训练样本是{x(1),x(2),...x(m)},没有y了。
K-means算法是将样本聚类成k个cluster,具体的算法描述如下:
K是我们事先给定的聚类数,代表样例i与k个类中距离最近的那个类,的值是1到k中的一个。质心代表我们对属于同一个类的样本中心点的猜测,拿星团模型来解释就是要将所有的星星聚成k个星团,首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为,这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重新计算它的质心(对里面所有的星星坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。
下图展示了对n个样本点进行K-means聚类的效果,这里k取2.
K-means面对的第一个问题就是如何保证收敛,前面的算法中强调结束条件就是收敛。定性的描述以下收敛,就是使平方误差最小,其畸变函数如下:
J表示每个样本点到其质心的距离平方和。K-means要将J调整到最小。假设当前J没有达到最小,可以采取两种方法使函数达到最小。可以固定每个类的质心,调整每个样例的所属的类别C(i)来让J函数减少,同样,固定才C(i),调整每个类的质心也可以使J减小。这两个过程就是内循环中使J单调递减的过程。当J递减到最小时,和c也同时收敛。(在理论上,可以有多组不同的和c值能够使得J取得最小值,但这种现象实际上很少见)。
在求解最小值时我们不能保证是全局最小值,也就是说K-means对质心初始的位置的选择比较感冒,但一般情况下K-means达到局部最优解已经满足需求。但如果怕陷入局部最优,那么可以选取不同的初始值跑多遍K-means,然后取其中最小的J对应的u和c输出。
下面为了更好的理解K-means,我们来个简单的例子:
数据对象集合见下表,作为一个聚类分析的二维样本,要求簇的数量k=2。
O | x | y |
1 | 0 | 2 |
2 | 0 | 0 |
3 | 1.5 | 0 |
4 | 5 | 0 |
5 | 5 | 2 |
1.选择O1(0,2) O2(0,0)为初始的簇中心,即M1=(0,2) M2=(0,0)
2.对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。
显然d(M2,O3)<=d(M1,O3),故将O3分配给C2。
以此类推计算得到:C1={O1,O5},C2={O2,O3,O4}
计算平方误差准则:
E1=[(0-0)2+(2-2)2]+[(0-5)2+(2-2)2]=25
E2=27.25
总的平均方差是:E=25+27.25=52.25
3.计算新的簇中心:
M1=((0+5)/2,(2+2)/2)=(2.5,2)
M2=((0+1.5+5)/3,(0+0+0)/3)=(2.17,0)
重复2、3,得到新的簇为:C1={O1,O5},C2={O2,O3,O4}
计算平方误差准则:
E1=[(0-2.5)2+(2-2)2]+[(5-2.5)2+(2-2)2]=12.5
E2=13.15
总的平均方差是:E=12.5+13.15=25.65
可以看出第一次迭代后,总体平均误差值减小,由于在两次迭代时,簇中心不变,所以,停止迭代过程,算法停止。
参考文献:
[1]http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html