spark sql基于RBO的优化

！@123

已于 2023-12-05 00:02:21 修改

阅读量770

点赞数 10

分类专栏：大数据文章标签： spark sql 大数据

于 2023-12-04 23:59:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a123op2346/article/details/134796333

版权

大数据专栏收录该内容

17 篇文章 0 订阅

订阅专栏

前言

这里只对RBO优化进行简单的讲解。讲解RBO之前必须对spark sql的执行计划做一个简单的介绍。
这个里讲解的不是很清楚，需要结合具体的执行计划来进行查看

1、执行计划

在spark sql的执行计划中，执行计划分为两大类，即逻辑执行计划、物理执行计划。物理执行计划才是sql最终执行的执行计划

逻辑执行计划

Unresolved逻辑执行计划：Parsed Logical Plan
件检查 SQL 语法上是否有问题，然后生成 Unresolved（未解析）的逻辑计划，不检查表名、不检查列名
Resolved逻辑执行计划：Analyzed Logical Plan
通过访问 Spark 中的 Catalog 存储库来解析验证语义、列名、类型、表名等。
优化后的逻辑执行计划：Optimized Logical Plan
Catalyst 优化器根据各种规则进行优化
Catalyst 优化器根据各种规则进行优化。

物理执行计划

物理执行计划： Physical Plan
确定连接的类型、分区的数量、过滤器、where、groupBy子句的执行顺序等

执行计划处理流程

在这里插入图片描述

核心步骤

在这里插入图片描述

2、RBO详解

RBO是基于规则的优化，是在Analyzed Logical Plan基础上的优化，基于规则有三种

常量替换
对于纯常量的运算的表达式，例如1+2，会将其替换为等值的3。如果列很多的话，需要对每一列都进行计算（如果表达式更加复杂会耗费更多的时间），能够消除不必要的计算。
谓词下推
使用where条件或者left on对数据进行过滤的操作提前执行，可以减少输入的数据量，减少计算的压力。想对于ORC和Parquet类型的存储，可以根据文件脚注的统计信息，下推谓词能够大幅减少数据扫描量，降低磁盘IO
谓词下推规则：
列裁剪
只读取那些与查询相关的字段

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
spark sql基于RBO的优化

SparkSql、RBO
复制链接

扫一扫

专栏目录

！@123 CSDN认证博客专家 CSDN认证企业博客

码龄6年

43: 原创

27万+: 周排名

19万+: 总排名

1万+: 访问

: 等级

483: 积分

19: 粉丝

49: 获赞

14: 评论

51: 收藏

私信

关注

热门文章

分类专栏

大数据 17篇
jvm 1篇
java 4篇
mysql 1篇
docker 5篇
docker-compose 5篇
linux 1篇
笔记 5篇
k8s 3篇

最新评论

linux部署kafka集群
CSDN-Ada助手: 恭喜您写下了第18篇博客！看到您分享关于“linux部署kafka集群”的内容，我真是受益匪浅。您的经验和知识分享对于我们这些对kafka集群部署不太了解的人来说非常有帮助。在接下来的创作中，我想提个谦虚的建议。或许您可以考虑分享一些关于kafka集群稳定性的经验，或者讨论一些常见的问题和解决方案。当然，这只是一个建议，我知道您一定还有很多其他精彩的主题等待我们去探索。再次感谢您的分享，期待您的下一篇博客！
docker-compose部署redis
CSDN-Ada助手: 恭喜您写了第11篇博客！标题为“docker-compose部署redis”，我很高兴看到您持续创作并分享有关Docker和Redis的经验。您的博客对于那些希望了解如何使用docker-compose来部署Redis的人们来说一定非常有帮助。在下一步的创作中，我建议您可以考虑探索更多关于Redis的主题，如缓存策略、持久化、高可用性等方面的内容。此外，您还可以尝试与其他容器化工具或技术进行整合，例如使用Kubernetes部署Redis集群。再次恭喜您的努力和成果，期待看到您未来更多精彩的博客！
docker-compose部署es+kibana
CSDN-Ada助手: 恭喜您写了第12篇博客，标题为“docker-compose部署es+kibana”。我非常欣赏您分享这样有价值的内容，尤其是介绍了如何使用docker-compose来部署es和kibana。这对于那些想要搭建自己的数据分析环境的人来说非常有帮助。在下一步的创作中，我想建议您考虑深入探讨如何优化和扩展这个部署方案。比如，您可以分享如何配置集群、添加安全性措施以及实现高可用性。这些内容将进一步拓宽读者的视野，让他们更好地应用于实际生产环境中。再次恭喜您的连续创作，期待您的下一篇博客！请继续保持谦虚的态度，我们都在学习中不断进步。
docker-compose部署nginx
CSDN-Ada助手: 恭喜您写了第13篇博客！标题为“docker-compose部署nginx”，我很高兴看到您持续创作并分享有关Docker和nginx的经验。正如您所提到的，使用docker-compose部署nginx确实是一种方便且高效的方式。在接下来的创作中，我建议您可以探索一下与nginx相关的进阶主题，比如如何配置反向代理、负载均衡和SSL证书等。这些主题将进一步加强您的文章内容，为读者提供更全面的指导。谦虚地说，我相信您对这些主题的理解和实践会给读者带来很大的帮助。期待您的下一篇博客！
centos7安装jdk1.8
CSDN-Ada助手: 恭喜您写了第14篇博客！看到您分享有关centos7安装jdk1.8的经验，我感到非常高兴。您的文章对于那些需要在centos7上安装jdk1.8的读者来说，肯定会非常有帮助。在下一步的创作中，我建议您可以继续深入探讨jdk1.8的一些常见问题和应用场景，或者提供一些与centos7配套使用的其他开发工具或框架的安装教程。这样，读者可以更全面地了解和掌握相关知识。再次恭喜您的持续创作，期待您更多精彩的博客文章！谦虚的语气也希望您能保持，因为您的分享对于我们这些读者来说真的非常有价值。加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。