机器学习-k-means

K-means算法简介

K-means算法也被称为K-平均或K-均值,是一种得到最广泛使用的聚类算法。它是将各个聚类子集中的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而是生成的每个聚类内部紧凑,类间独立。

K-means聚类是属于无监督学习的,以往的回归、朴素贝叶斯、SVM等都是有类别数值标签Y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特性x,聚类的目的是找到每个样本x潜在的类别y,并将同类别y的x放在一起。

在聚类问题中,给我们的训练样本是{x(1),x(2),...x(m)},没有y了。

K-means算法是将样本聚类成k个cluster,具体的算法描述如下:

 K是我们事先给定的聚类数,clip_image012[6]代表样例i与k个类中距离最近的那个类,clip_image012[7]的值是1到k中的一个。质心clip_image014[6]代表我们对属于同一个类的样本中心点的猜测,拿星团模型来解释就是要将所有的星星聚成k个星团,首先随机选取k个宇宙中的点(或者k个星星)作为k个星团的质心,然后第一步对于每一个星星计算其到k个质心中每一个的距离,然后选取距离最近的那个星团作为clip_image012[8],这样经过第一步每一个星星都有了所属的星团;第二步对于每一个星团,重新计算它的质心clip_image014[7](对里面所有的星星坐标求平均)。重复迭代第一步和第二步直到质心不变或者变化很小。

下图展示了对n个样本点进行K-means聚类的效果,这里k取2.

K-means面对的第一个问题就是如何保证收敛,前面的算法中强调结束条件就是收敛。定性的描述以下收敛,就是使平方误差最小,其畸变函数如下:

J表示每个样本点到其质心的距离平方和。K-means要将J调整到最小。假设当前J没有达到最小,可以采取两种方法使函数达到最小。可以固定每个类的质心clip_image014[8],调整每个样例的所属的类别C(i)来让J函数减少,同样,固定才C(i),调整每个类的质心clip_image014[9]也可以使J减小。这两个过程就是内循环中使J单调递减的过程。当J递减到最小时,clip_image018[6]和c也同时收敛。(在理论上,可以有多组不同的clip_image018[7]和c值能够使得J取得最小值,但这种现象实际上很少见)。

在求解最小值时我们不能保证是全局最小值,也就是说K-means对质心初始的位置的选择比较感冒,但一般情况下K-means达到局部最优解已经满足需求。但如果怕陷入局部最优,那么可以选取不同的初始值跑多遍K-means,然后取其中最小的J对应的u和c输出。

 

下面为了更好的理解K-means,我们来个简单的例子:

数据对象集合见下表,作为一个聚类分析的二维样本,要求簇的数量k=2。

Oxy
102
200
31.50
450
552

1.选择O1(0,2)  O2(0,0)为初始的簇中心,即M1=(0,2) M2=(0,0)

2.对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。

显然d(M2,O3)<=d(M1,O3),故将O3分配给C2。

以此类推计算得到:C1={O1,O5},C2={O2,O3,O4}

计算平方误差准则:

E1=[(0-0)2+(2-2)2]+[(0-5)2+(2-2)2]=25

E2=27.25

总的平均方差是:E=25+27.25=52.25

3.计算新的簇中心:

M1=((0+5)/2,(2+2)/2)=(2.5,2)

M2=((0+1.5+5)/3,(0+0+0)/3)=(2.17,0)

重复2、3,得到新的簇为:C1={O1,O5},C2={O2,O3,O4}

计算平方误差准则:

E1=[(0-2.5)2+(2-2)2]+[(5-2.5)2+(2-2)2]=12.5

E2=13.15

总的平均方差是:E=12.5+13.15=25.65

可以看出第一次迭代后,总体平均误差值减小,由于在两次迭代时,簇中心不变,所以,停止迭代过程,算法停止。

 

参考文献:

[1]http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html

转载于:https://www.cnblogs.com/mlfighting/archive/2013/05/18/3085679.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值