一、数据倾斜
数据倾斜、热点问题这两种称呼描述的都是同一个问题:数据分布不均匀。
为什么不均匀就会成为一个问题?
回溯分布式计算的初衷是这样一个情景:
每个节点的数据和算力都是均衡分布的,也就是说,每个节点存储的数据量都差不多,具有的算力也都差不多。
然而在一次实际的计算中参与计算的数据在集群中的分布往往是这样的:
一、数据倾斜
数据倾斜、热点问题这两种称呼描述的都是同一个问题:数据分布不均匀。
为什么不均匀就会成为一个问题?
回溯分布式计算的初衷是这样一个情景:
每个节点的数据和算力都是均衡分布的,也就是说,每个节点存储的数据量都差不多,具有的算力也都差不多。
然而在一次实际的计算中参与计算的数据在集群中的分布往往是这样的: