对于数据倾斜的思考

qq_33409840

已于 2022-03-18 11:06:52 修改

阅读量2.5k

点赞数

分类专栏： Java基础知识文章标签： kafka spark 分布式

于 2022-03-18 10:11:37 首次发布

本文链接：https://blog.csdn.net/qq_33409840/article/details/123566278

版权

在分部署的集群服务中，当涉及到数据的分区，分片的时候，不可避免的会涉及到数据倾斜的问题的。数据倾斜方案的设计对于整体系统性能的设计是存在一些性能方面的限制或者是风险的。
数据倾斜常见的集中场景。
1.kakfa中，大量的数据分发到对应的指定的某个分区上面，导致kafka的消费能力急剧降低；
方式一：kakfa底层存在相关的机制，对应的可以使用热balance机制来实现rebalance重平衡操作的。在重平衡期间，服务对外不提供服务的，存在一定的性能损耗。
方式二:kafka的分区操作的话，对应的存在相关的Partitioner接口的。我们可以自定义相关的Partitioner的信息的。默认的是使用如下的方式实现的
int nextValue = counter.getAndIncrement();
return DefaultPartitioner.toPositive(nextValue) % numPartitions;
我们可以自定义实现自己的分区策略的。这样的话，就可以使用随机数来解决相关的数据倾斜的问题的。
方法三:使用ProducerRecord，在创建的时候指定相关的随机分区也是可以实现问题的解决的。
2.spark处理任务的时候，数据发生严重的倾斜，对应的数据发送到了指定的一个或者是几个reduce中，当然也有可能是业务自身的问题，在特定的时间段，特定的业务的数据量会出现激增的操作，这个属于业务正常的情况；
方案一：对应的key中增加随机数，这样的话，可以达成随机的特性的，后续需要对key执行处理，消除原有数据中的随机数信息
方案二：增加伪列信息，后续的话，根据伪列实现自定义的分区操作，可以解决数据倾斜分区的