Hadoop map-reduce 实现K-means聚类(combiner的使用)

爱知菜

于 2018-06-25 15:06:50 发布

阅读量666

点赞数

分类专栏： Hadoop/Spark/Hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rav009/article/details/80801819

版权

Hadoop/Spark/Hive 专栏收录该内容

72 篇文章 0 订阅

订阅专栏

K-means聚类简单回顾一下, 就是一个不停迭代的过程, 先随机若干个中心, 然后找出距离这几个中心最近的点, 然后把这些最近点的中心求出来作为新的中心.

使用map reducer来说

mapper的作用就是遍历所有点, 把这个点以及距离它最近的中心找到, 如果我们把点定义为D, 把中心定义为C, 那mapper的输出就是:

D1,  C2
D2,  C3
...

这里我们假设D1和C2最近, D2和C3最近

reducer自然是为了计算新的中心, 为了方便partition, mapper输出的时候, 应该以C为key, D为value

这样在这一轮迭代中被聚类到同一个C 的点就会分配给同一个reducer来求新的中心点.

如果点太多的话, reducer的压力会很大, 有没有办法给reducer减压呢. 其实如果求中心点的算法是算术平均的话, 那就很好办了

(1+2+3+4+5)/5 = ((1+2)+(3+4)+5)/(2+2+1) = (3+7+5)/(2+2+1)

利用combiner, 先算出每个mapper的结果中, 每个中心最近的点的和以及其数量, 然后只要告诉reducer这两个值, reducer照样能算出算术平均值, 即中心值.

所以对于算术平均作为中心的K-Means 来说, combiner可以其到很好的优化作用, 但其他K-Means不是简单把算术平均当作中心的, 就不能用这个优化手段.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱知菜 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。