left join 优化_SparkSQL在字节跳动的应用实践和优化实战

最新推荐文章于 2024-07-03 03:11:01 发布

欧明新

最新推荐文章于 2024-07-03 03:11:01 发布

阅读量245

点赞数

文章标签： left join 优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32998893/article/details/112074290

版权

本文聚焦于SparkSQL在字节跳动的优化实践，重点讨论了left join的优化，包括将SortMergeJoin转换为ShuffledHashJoin和构建左连接sidemap，以及通过Parquet数据读取剪枝、LocalSort、BoomFilter等手段提升性能。优化后，SQL执行速度平均提升20%~30%，执行时长显著缩短，并探讨了如何选择合适的列和其他如Hive/SparkLoad分区优化策略。

摘要由CSDN通过智能技术生成

来源:字节跳动白泉的分享作者:大数据技术与架构整理

大数据技术与架构 点击右侧关注，大数据开发领域最强公众号！

暴走大数据 点击右侧关注，暴走大数据！

By 大数据技术与架构 场景描述： 面对大量复杂的数据分析需求，提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于SparkSQL建设大数据查询统一服务TQS(Toutiao Query Service)的一些实践以及在执行计划调优、数据读取剪枝、SQL兼容性等方面对SparkSQL引擎的一些优化。 关键词：SparkSQL优化字节跳动

本文是根据来自字节跳动的分享整理而成。

作者来自字节跳动数据平台查询分析团队。

目标和能力

为公司内部提供 Hive 、 Spark - SQL 等 OLAP 查询引擎服务支持。

提供全公司大数据查询的统一服务入口，支持丰富的API接口，覆盖Adhoc、ETL等SQL查询需求
支持多引擎的智能路由、参数的动态优化
Spark-SQL/Hive引擎性能优化

针对SparkSQL，主要做了以下优化： 1. 执行计划自动调优 •基于AE的 ShuffledHashJoin调整

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。