一个有点意思的问题,如何快速收敛超大的KMeans
被一个牛人问道了这个问题:超亿个节点,进行KMeans的聚类,每次迭代都要进行K×亿的运算,如何能让这个迭代快速的收敛?
当场晕倒,从来没有考虑过这些问题,基础的数据挖据算法不考虑超大级别的运算问题。
回来想了想,再看看Mahout的KMeans的实现方法,觉得可以这么解决.
1. 第一次迭代的时候,正常进行,选取K个初始点,然后计算所有节点到这些K的距离,再分到不同
原创
2015-04-09 13:46:52 ·
2710 阅读 ·
1 评论