自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

infovisthinker的专栏

技术杂谈，喜欢数据分析，特别是文本分析。信息可视化科普。

KMeans

关注

关注数：文章数：1 文章阅读量：2710 文章收藏量：0

作者: infovisthinker

这个作者很懒，什么都没留下…

展开

一个有点意思的问题，如何快速收敛超大的KMeans

被一个牛人问道了这个问题：超亿个节点，进行KMeans的聚类，每次迭代都要进行K×亿的运算，如何能让这个迭代快速的收敛？当场晕倒，从来没有考虑过这些问题，基础的数据挖据算法不考虑超大级别的运算问题。回来想了想，再看看Mahout的KMeans的实现方法，觉得可以这么解决. 1. 第一次迭代的时候，正常进行，选取K个初始点，然后计算所有节点到这些K的距离，再分到不同

原创 2015-04-09 13:46:52 · 2710 阅读 · 1 评论