K-means算法的MapReduce并行化实现
1.K-means聚类算法的基本思路
假设把样本集分为K类,算法描述如下:
(1).首先在数据集合中随机选取k个点作为k个星团的质心
(2)然后计算每个点到k个质心的距离,将其归类为距离最近的那个质心所在的类,这样每个点都有了所属的类别
(3)对每个聚类中所有的点的坐标取平均值,将其设为新的质心
(4)重复迭代第二步和第三步,直到质心不变或者变化很小
下图展示了对n个样本点进行K-means聚类的效果,这里k取2。
K-means算法的MapReduce并行化实现
1.K-means聚类算法的基本思路
假设把样本集分为K类,算法描述如下:
(1).首先在数据集合中随机选取k个点作为k个星团的质心
(2)然后计算每个点到k个质心的距离,将其归类为距离最近的那个质心所在的类,这样每个点都有了所属的类别
(3)对每个聚类中所有的点的坐标取平均值,将其设为新的质心
(4)重复迭代第二步和第三步,直到质心不变或者变化很小
下图展示了对n个样本点进行K-means聚类的效果,这里k取2。