Repartition Join在Spark的缺点（简版）

最新推荐文章于 2022-08-02 00:33:10 发布

乱弹_

最新推荐文章于 2022-08-02 00:33:10 发布

阅读量1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pinglanyinjiu/article/details/78224662

版权

100-300G/表，节点10x3核2.7GHz，1.6版，centos6

问题：

1.需要在查询时对参与两表连接的数据进行动态的重划分，网络和内存开销都很大，宽表的情况下，结构化数据中事实表和维度表i的数据通信量较大造成实时性差。

2.通过哈希函数划分到同一节点的很多事实表元组在外键上具有相同的值，CPU和内存消耗量较大。

解决：

1.事实表去重，数据块粒度的去重

2.设置并行度，一致性哈希数据划分

3.预先连接，按key快速分组并保留key

代码：

另

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Repartition Join在Spark的缺点（简版）

100-300G/表，节点10x3核2.7GHz，1.6版，centos6问题：1.需要在查询时对参与两表连接的数据进行动态的重划分，网络和内存开销都很大，宽表的情况下，结构化数据中事实表和维度表i的数据通信量较大造成实时性差。2.通过哈希函数划分到同一节点的很多事实表元组在外键上具有相同的值，CPU和内存消耗量较大。解决：1.事实表去重，数据块粒度的去重2.设置并行度，一
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。