谈一谈spark SQL的调优经验

最新推荐文章于 2023-07-31 14:37:08 发布

国家级睡觉型选手

最新推荐文章于 2023-07-31 14:37:08 发布

阅读量477

点赞数 3

分类专栏：大数据文章标签：大数据 mysql 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Monica114/article/details/108364755

版权

什么是spark SQL

SQL是一种结构化的数据库查询语言。而spark SQL是spark套件中的一个组件，它将数据的计算任务通过SQL的形式转换成了RDD的计算，类似于hive通过SQL的形式将数据的计算任务转换成了MapReduce。
通常来说Hadoop是一整套大数据解决方案，包括了存储（HDFS）、计算（MapReduce）和资源调度管理（Yarn）。hive是Hadoop生态发展起来的一个数据仓库，可以使用hive SQL实现MR，并且将HDFS映射成表。而spark是基于内存计算的大数据并行计算框架，可以更快第实现数据计算。

spark SQL执行步骤

大部分的SQL，解析执行过程类似：通常用户在客户端发送SQL请求，先判断请求是否合法，包括权限检查等；然后SQL解析器对SQL进行语法语义的解析，SQL优化器会生成最优执行计划。
SQL执行步骤示意图

spark SQL执行顺序

要对SQL调优，肯定是要对SQL关键字执行顺序有所认识。这样便于我们更好地调整SQL。以下是一条SQL所有关键字执行顺序。
在这里插入图片描述

join原理

SQL的所有操作，可

最低0.47元/天解锁文章

国家级睡觉型选手

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
谈一谈spark SQL的调优经验

什么是spark SQLSQL是一种结构化的数据库查询语言。而spark SQL是spark套件中的一个组件，它将数据的计算任务通过SQL的形式转换成了RDD的计算，类似于hive通过SQL的形式将数据的计算任务转换成了MapReduce。通常来说Hadoop是一整套大数据解决方案，包括了存储（HDFS）、计算（MapReduce）和资源调度管理（Yarn）。hive是Hadoop生态发展起来的一个数据仓库，可以使用hive SQL实现MR，并且将HDFS映射成表。而spark是基于内存计算的大数据并行
复制链接

扫一扫

专栏目录

国家级睡觉型选手 CSDN认证博客专家 CSDN认证企业博客

码龄5年

15: 原创

40万+: 周排名

112万+: 总排名

3万+: 访问

: 等级

561: 积分

34: 粉丝

143: 获赞

16: 评论

224: 收藏

私信

关注

热门文章

分类专栏

笔记 1篇
大数据 10篇
leetcode 4篇

最新评论

一对多关联导致数据发散的SQL优化经验
弦歌有你ZQX: 如果table2是组合主键呢？同一个ID，在不同时间，做出的不同行为，都要被关联上怎么办？而且，如果table2的不重复事件就是500万，那么最后得到的查询结果是不是应该也是500万左右？
一对多关联导致数据发散的SQL优化经验
好烦吃不胖: 如果实际业务就是一对多的该如何优化呢？
关于hive的介绍和使用
别这么骄傲: 外部表用的挺多的把，相反是内部表用的少
如何用SQL统计用户复购（or留存）数据
gingerl_fox: 感谢分享，非常清楚明白。bi的需求堆到了两周后，小白靠这个教程自己把数据取出来了，救老命了
如何用SQL统计用户复购（or留存）数据
bigass20: 超级感谢，最近面试遇到两次类似的sql题啦

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。