机器学习-k-means

最新推荐文章于 2024-07-12 16:35:20 发布

dichou8767

最新推荐文章于 2024-07-12 16:35:20 发布

阅读量140

点赞数

文章标签：数据结构与算法人工智能

原文链接：http://www.cnblogs.com/mlfighting/archive/2013/05/18/3085679.html

版权

K-means算法简介

K-means算法也被称为K-平均或K-均值，是一种得到最广泛使用的聚类算法。它是将各个聚类子集中的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而是生成的每个聚类内部紧凑，类间独立。

K-means聚类是属于无监督学习的，以往的回归、朴素贝叶斯、SVM等都是有类别数值标签Y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特性x,聚类的目的是找到每个样本x潜在的类别y,并将同类别y的x放在一起。

在聚类问题中，给我们的训练样本是{x^₍₁₎,x⁽²⁾,...x^(m)},没有y了。

K-means算法是将样本聚类成k个cluster，具体的算法描述如下：

K是我们事先给定的聚类数，代表样例i与k个类中距离最近的那个类，的值是1到k中的一个。质心代表我们对属于同一个类的样本中心点的猜测，拿星团模型来解释就是要将所有的星星聚成k个星团，首先随机选取k个宇宙中的点（或者k个星星）作为k个星团的质心，然后第一步对于每一个星星计算其到k个质心中每一个的距离，然后选取距离最近的那个星团作为，这样经过第一步每一个星星都有了所属的星团；第二步对于每一个星团，重新计算它的质心（对里面所有的星星坐标求平均）。重复迭代第一步和第二步直到质心不变或者变化很小。

下图展示了对n个样本点进行K-means聚类的效果，这里k取2.

K-means面对的第一个问题就是如何保证收敛，前面的算法中强调结束条件就是收敛。定性的描述以下收敛，就是使平方误差最小，其畸变函数如下：

J表示每个样本点到其质心的距离平方和。K-means要将J调整到最小。假设当前J没有达到最小，可以采取两种方法使函数达到最小。可以固定每个类的质心，调整每个样例的所属的类别C⁽ⁱ⁾来让J函数减少，同样，固定才C⁽ⁱ⁾，调整每个类的质心也可以使J减小。这两个过程就是内循环中使J单调递减的过程。当J递减到最小时，和c也同时收敛。（在理论上，可以有多组不同的和c值能够使得J取得最小值，但这种现象实际上很少见）。

在求解最小值时我们不能保证是全局最小值，也就是说K-means对质心初始的位置的选择比较感冒，但一般情况下K-means达到局部最优解已经满足需求。但如果怕陷入局部最优，那么可以选取不同的初始值跑多遍K-means，然后取其中最小的J对应的u和c输出。

下面为了更好的理解K-means，我们来个简单的例子：

数据对象集合见下表，作为一个聚类分析的二维样本，要求簇的数量k=2。

O	x	y
1	0	2
2	0	0
3	1.5	0
4	5	0
5	5	2

1.选择O₁(0,2) O₂(0,0)为初始的簇中心，即M₁=（0,2） M₂=(0,0)

2.对剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇。

显然d(M₂,O₃)<=d(M₁,O₃),故将O₃分配给C_2。

以此类推计算得到：C₁={O₁,O₅},C₂={O₂,O₃,O₄}

计算平方误差准则：

E₁=[(0-0)²+(2-2)²]+[(0-5)²+(2-2)²]=25

E₂=27.25

总的平均方差是：E=25+27.25=52.25

3.计算新的簇中心：

M₁=((0+5)/2,(2+2)/2)=(2.5,2)

M₂=((0+1.5+5)/3,(0+0+0)/3)=(2.17,0)

重复2、3，得到新的簇为：C₁={O₁,O₅},C₂={O₂,O₃,O₄}

计算平方误差准则：

E₁=[(0-2.5)²+(2-2)²]+[(5-2.5)²+(2-2)²]=12.5

E₂=13.15

总的平均方差是：E=12.5+13.15=25.65

可以看出第一次迭代后，总体平均误差值减小，由于在两次迭代时，簇中心不变，所以，停止迭代过程，算法停止。

参考文献：

[1]http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html

转载于:https://www.cnblogs.com/mlfighting/archive/2013/05/18/3085679.html

dichou8767

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习-k-means

K-means算法简介K-means算法也被称为K-平均或K-均值，是一种得到最广泛使用的聚类算法。它是将各个聚类子集中的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优，从而是生成的每个聚类内部紧凑，类间独立。K-means聚类是属于无监督学习的，以往的回归、朴素贝叶斯、SVM等都是有类别数值标签Y的...
复制链接

扫一扫