当使用spark 遇到 data skew 数据不均衡问题时解决方法

最新推荐文章于 2023-10-08 09:58:38 发布

VIP文章 shenyanxxxy

最新推荐文章于 2023-10-08 09:58:38 发布

阅读量590

点赞数 1

分类专栏：高性能计算文章标签： spark hadoop

本文链接：https://blog.csdn.net/shenyanasop/article/details/109430207

版权

那什么是spark 数据不均衡的问题呢？

当某一个column 的value 出现特别多次，比如1000次以上。然后table1 与table2 join 的时候，就会导致某个分区的task 执行时间特别长。详见下图，下图就是在spark join操作的时候遇到的数据分布不均衡，导致的某个task 执行时间过长。
比如，table1:

itemid	userid
123	abc
123	abce
123	acd
123	acd

table2:

itemid	price
123	100

table1 和 table2 inner join by itemid 的时候，所有的数据会进入一个partition。有

最低0.47元/天解锁文章

优惠劵

shenyanxxxy

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
当使用spark 遇到 data skew 数据不均衡问题时解决方法

那什么是spark 数据不均衡的问题呢？当某一个column 的value 出现特别多次，比如1000次以上。然后table1 与table2 join 的时候，就会导致某个分区的task 执行时间特别长。详见下图，下图就是在spark join操作的时候遇到的数据分布不均衡，导致的某个task 执行时间过长。比如，table1:itemid userid 123 abc 123 abce 123 acd 123 acd ta.
复制链接

扫一扫