用 mapreduce 怎么处理数据倾斜问题？

最新推荐文章于 2023-03-14 11:15:45 发布

weixin_34095889

最新推荐文章于 2023-03-14 11:15:45 发布

阅读量211

点赞数

文章标签：大数据 python

原文链接：https://my.oschina.net/wangjiaotong/blog/704571

版权

2019独角兽企业重金招聘Python工程师标准>>>

map /reduce 程序执行时， reduce 节点大部分执行完毕，但是有一个或者几个 reduce
节点运行很慢，导致整个程序的处理时间很长，这是因为某一个 key 的条数比其他 key 多
很多（有时是百倍或者千倍之多），这条 key 所在的 reduce 节点所处理的数据量比其他节
点就大很多，从而导致某几个节点迟迟运行不完，此称之为数据倾斜.
解决方法：
(1)设置一个 hash 份数 N，用来对条数众多的 key 进行打散。
(2)对有多条重复 key 的那份数据进行处理：从 1 到 N 将数字加在 key 后面作为新 key，
如果需要和另一份数据关联的话，则要重写比较类和分发类。如此实现多条 key 的平均分发。
(3)上一步之后， key 被平均分散到很多不同的 reduce 节点。如果需要和其他数据关联，
为了保证每个 reduce 节点上都有关联的 key，对另一份单一 key 的数据进行处理：循环的
从 1 到 N 将数字加在 key 后面作为新 key
用上述的方法虽然可以解决数据倾斜，但是当关联的数据量巨大时，如果成倍的增长某
份数据，会导致 reduce shuffle 的数据量变的巨大，得不偿失，从而无法解决运行时间慢的
问题.
在两份数据中找共同点，比如两份数据里除了关联的字段以外，还有另外相同含义的字段，
如果这个字段在所有 log 中的重复率比较小，则可以用这个字段作为计算 hash 的值，如果
是数字，可以用来模 hash 的份数，如果是字符可以用 hashcode 来模 hash 的份数（当然数
字为了避免落到同一个 reduce 上的数据过多，也可以用 hashcode），这样如果这个字段
的值分布足够平均的话，就可以解决上述的问题。
解决方法： http://my.oschina.net/leejun2005/blog/100922 1. 增加 reduce 的 jvm 内存 2. 增加 reduce 个数