left join 优化_SparkSQL在字节跳动的应用实践和优化实战

本文聚焦于SparkSQL在字节跳动的优化实践,重点讨论了left join的优化,包括将SortMergeJoin转换为ShuffledHashJoin和构建左连接sidemap,以及通过Parquet数据读取剪枝、LocalSort、BoomFilter等手段提升性能。优化后,SQL执行速度平均提升20%~30%,执行时长显著缩短,并探讨了如何选择合适的列和其他如Hive/SparkLoad分区优化策略。
摘要由CSDN通过智能技术生成
来源:字节跳动白泉的分享 作者:大数据技术与架构整理

d16dd450d6954114174f32a6ed95ca9f.png

大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 1e86f293dd5493420fe2f38294b3eb99.png

7b443bb9fe545b8336e3998897fdec6e.png

暴走大数据 点击右侧关注,暴走大数据! 05d358450c29295ac4545d718aea2339.png By  大数据技术与架构 场景描述: 面对大量复杂的数据分析需求,提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于SparkSQL建设大数据查询统一服务TQS(Toutiao Query Service)的一些实践以及在执行计划调优、数据读取剪枝、SQL兼容性等方面对SparkSQL引擎的一些优化。 关键词:SparkSQL优化 字节跳动

本文是根据来自字节跳动的分享整理而成。

作者来自字节跳动数据平台查询分析团队。

 

目标和能力

为公司内部提供 Hive 、 Spark - SQL 等 OLAP 查询引擎服务支持。
  • 提供全公司大数据查询的统一服务入口,支持丰富的API接口,覆盖Adhoc、ETL等SQL查询需求

  • 支持多引擎的智能路由、参数的动态优化

  • Spark-SQL/Hive引擎性能优化

针对SparkSQL,主要做了以下优化:   1. 执行计划自动调优         •基于AE的 ShuffledHashJoin调整        
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值