【机器学习基础第4期】聚类算法分析

最新推荐文章于 2024-05-02 12:32:44 发布

smilyccj

最新推荐文章于 2024-05-02 12:32:44 发布

阅读量489

点赞数

分类专栏：机器学习基础

本文链接：https://blog.csdn.net/ccj201300130003/article/details/61623821

版权

机器学习基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

k均值聚类算法：聚类属于无监督学习。聚类的目的是找到每个样本x潜在的类别y,并将相似的样本x归到同样的簇中去。簇内的对象越相似，簇间的对象越不同，聚类的效果越好。

假设：训练样本是{x1,x2,....,xm},每个xi属于R。

工作流程如下：

其中k是用户指定的聚类数，C(i)代表样例i和k个类别中距离最近的那个类别，质心u(j)代表我们对于同一个类别的样本中心点的猜测。

《大数据》一书中提到K个初始点的选取有两种方法：

1.选择彼此距离尽可能远的k个点：首先随机选择一个点作为第一个初始类簇中心点，然后选择距离该点最远的那个点作为第二个初始类簇中心点，然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点，以此类推，直至选出K个初始类簇中心点。

2.选用层次聚类或者Canopy算法进行初始聚类，然后利用这些类簇的中心点或者距离中心点最近的那个点作为KMeans算法初始类簇中心点：

常用的层次聚类算法有BIRCH和ROCK，在此不作介绍，下面简单介绍一下Canopy算法，主要摘自Mahout的Wiki：

首先定义两个距离T1和T2，T1>T2.从初始的点的集合S中随机移除一个点P，然后对于还在S中的每个点I，计算该点I与点P的距离，如果距离小于T1，则将点I加入到点P所代表的Canopy中，如果距离小于T2，则将点I从集合S中移除，并将点I加入到点P所代表的Canopy中。迭代完一次之后，重新从集合S中随机选择一个点作为新的点P，然后重复执行以上步骤。

Canopy算法执行完毕后会得到很多Canopy，可以认为每个Canopy都是一个Cluster，与KMeans等硬划分算法不同，Canopy的聚类结果中每个点有可能属于多个Canopy。我们可以选择距离每个Canopy的中心点最近的那个数据点，或者直接选择每个Canopy的中心点作为KMeans的初始K个类簇中心点。

以星团模型为例，首先随机选取k个点作为k个星团的质心。第一步对于每个星星计算其到k个质心中每个质心的距离，选择距离最近的作为C(i),经过第一步每个星星即每个样例都有了所属的类别。第二步重新计算它的质心。重复第一步第二步直到质心不变或者变化很小。

其中重新计算质心时采用计算所有点的均值并将均值作为新的质心。