Spark优化

最新推荐文章于 2023-09-19 15:50:30 发布

glaay

最新推荐文章于 2023-09-19 15:50:30 发布

阅读量743

点赞数

文章标签： spark hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40282669/article/details/114894119

版权

数据输入输出

上游文件合并：
set spark.merge.files.enabled=true;
set spark.merge.files.number=500;
合并小文件，拆大文件：
set spark.sql.files.maxPartitionBytes=1073741824;
set spark.sql.files.openCostInBytes=16777216;
合理的压缩格式（zstd vs gzip）
尽量不读区冗余列

数据倾斜

倾斜总揽
数据倾斜首先应该从业务上入手优化，其次通过技术手段优化，例如：Spark Adaptive Execution来处理。
GROUP BY 倾斜
GroupByKey -》ReduceByKey -》 AggregateByKey
Count(Distinct) -》Count(Group BY)
Map端文件合并
JOIN 倾斜
过滤掉无用的倾斜Key（Null值）
倾斜Key用随机数替换（Null值）
热点Key过滤分部分Join后Union All
热点Key加随机数前缀做两阶段Join
Reduce端Join改为Map端Join
做小表扩容
窗口倾斜
减少做窗口的字段子表，做完窗口再连接其他字段，让单个task数据量减少

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark优化

大数据优化数据输入输出上游文件合并：set spark.merge.files.enabled=true;set spark.merge.files.number=500;合并小文件，拆大文件：set spark.sql.files.maxPartitionBytes=1073741824;set spark.sql.files.openCostInBytes=16777216;合理的压缩格式（zstd vs gzip）尽量不读区冗余列数据倾斜倾斜总揽数据倾斜首先应该从业务上入
复制链接

扫一扫

glaay CSDN认证博客专家 CSDN认证企业博客

码龄7年

4: 原创

61万+: 周排名

155万+: 总排名

3075: 访问

: 等级

42: 积分

2: 粉丝

1: 获赞

1: 评论

4: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据架构 Inmon
不正经的kimol君: 支持博主，欢迎回赞哦~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。