大数据查询优化--Spark3.0新特性

最新推荐文章于 2024-05-15 15:59:55 发布

程小舰

最新推荐文章于 2024-05-15 15:59:55 发布

阅读量474

点赞数

文章标签：数据库 spark hadoop flink hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26566341/article/details/109227943

版权

前言

Apache Spark在6月份分布了3.0.0版本，增加了许多性能优化方面的新特性。作为大数据分析的重要引擎，在SQL查询优化方面的新特性值得期待和使用。Spark在SQL查询方面的性能优化主要分为四个方向七个方面：

开发交互方向

新的Explain格式
所有join支持hints

动态优化

自适应查询执行
动态分区裁剪

Catalyst提升

增强嵌套列的裁剪和下推
增强聚合的代码生成

基础设施更新

支持新的Scala和Java版本

新特性介绍

这7个方面最值得关注的在于动态优化方向的更新，下面来着重讲一下。

自适应查询执行

自适应查询执行通过使用运行时的统计信息进行三个方面的优化:

根据统计信息设置reducer的数量来避免内存和I/O资源的浪费

Spark2.4的版本中，Reducer的个数是通过配置文件中的shuffle.partition来设置的，如图有五个分区就有五个reducer来进行处理，由上图可以看到，reducer0的任务量较小

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据查询优化--Spark3.0新特性

前言Apache Spark在6月份分布了3.0.0版本，增加了许多性能优化方面的新特性。作为大数据分析的重要引擎，在SQL查询优化方面的新特性值得期待和使用。Spark在SQL查询方面的性能优化主要分为四个方向七个方面：开发交互方向新的Explain格式所有join支持hints动态优化自适应查询执行动态分区裁剪Catalyst提升增强嵌套列的裁剪和下推增强聚合的代码生成基础设施更新支持新的Scala和Java版本新特性介绍这7个方面最值得关注的在.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。