spark1.x-sql-架构原理

最新推荐文章于 2024-09-15 16:13:23 发布

猿与禅

最新推荐文章于 2024-09-15 16:13:23 发布

阅读量388

点赞数

分类专栏： spark 文章标签： spark spark-sql 架构

spark 专栏收录该内容

51 篇文章 1 订阅

订阅专栏

整体架构
spark-sql整体架构

详解

这里写图片描述

源码结构

catalyst
这里写图片描述

sql
这里写图片描述

hive
这里写图片描述

hive-thriftserver
这里写图片描述

原理

SQLText
–>Parsing
–>Unresolved Logical Plan
–>Binding & Analyzing
–>logical plan
–>optimizing
–>optimized logical plan
–>query planning
–>physical plan

可能生成多种物理计划
通过方法评估哪种方案最快节省资源最少

一个树的结构比如：
PROJECT　name
||
select
students
||
WHERE age<=18

SqlParser–>DataFrame(unresolved LogicalPlan tree的语法树)
–>RDD
–>transformation action

–>SQLContext executor.sql()

–>QueryExecution–>Analyzer.apply()

–>resolved Logicalplan 与数据源绑定
不知道表在哪里？
临时表在哪里

Resolved LogicalPlan 与 SQL中的数据源

(studentDF.registerTemplate(‘students’)) 进行绑定

知道从哪个数据源中查询

query excution

anlayzer的apply()方法执行结束后得到Resolved LogicalPlan

Analysis && binding
通过cacheManager 执行缓存的操作
如果之前已经缓存过执行计划再次执行使用缓存中的数据

optimizer
batches是非常非常重要的
封装了每一个Spark sql版本中可以对逻辑执行计划执行的优化策略
optimizer重点是理解它的各种优化策略

调用Optimizer的apply() 方法

针对Resolved LogicalPal调用Optimizer 进行优化

获得优化后的逻辑执行计划

优化策略建议的方式编写SQL语句

Combiner 其实就是合并limit语句
比如你的SQL语句中有多个limit子句取一个并集就可以
尽量避免值出现null 出现否则数据倾斜

直接计算获得常量尽量给出
UnionPuushDown 将Union下推 filter pushdown 将union where 下推到子查询中尽量早的执行union操作和where 操作
避免在外层查询中针对大量的数据两张大表执行where 操作

合并fitlter 就是合并where子句比如子查询中有针对某个字段的where 子句
外层查询中也有针对同样一个字段的where子句
那么此时可以合并where子句只保留一个即可取并集即可
我们自己写SQL的时候也要注意到这个where使用
如果针对一个字段写一次就好

列裁剪要查询的列

生成Optimized LogcalPlan

SparkPlanner
逻辑执行计划具体化物化

PrepareforExecutor()

SparkPlanner生成一个可以执行的sparkplan 物理执行计划
已经绑定到了物理的数据源

知道对各个表的join
如果进行jion 包括jion的时候默认spark内部会对小表进行广播

生成 SparkPlan (Physical Plan).executor()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

猿与禅 CSDN认证博客专家 CSDN认证企业博客

码龄10年

278: 原创

1万+: 周排名

5959: 总排名

68万+: 访问

: 等级

7602: 积分

3453: 粉丝

518: 获赞

78: 评论

939: 收藏

私信

关注

热门文章

分类专栏

最新评论

vuejs-入门命令大全
CSDN-Ada助手: 这些前端编译工具使用不同的语言开发: esbuild(Go), SWC(Rust), Bun(Zig), Parcel 2(JS/Rust), Vite(JS/Go), napi-rs(Rust)，这说明了什么问题？
AI大模型-使用 FastChat 部署ChatGLM3
猿与禅: 可以的，文章最后有我的微信名片
AI大模型-使用 FastChat 部署ChatGLM3
湾区会客厅: 文章写的不错，有机会可以交流一下？
ollama集成open-webui本地部署大模型应用
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
docker 安装
猿与禅: 1. **创建和启动服务容器**： - `docker-compose up`：启动服务容器并根据需要构建镜像。加上 `-d` 参数（`docker-compose up -d`）则会在后台（detached mode）启动容器。 - `docker-compose up --build`：在启动服务之前先重新构建镜像。 2. **停止并删除容器、网络和卷**： - `docker-compose down`：停止并删除由 `docker-compose up` 创建的所有资源，包括容器、网络和挂载的数据卷。若要保留卷，可以使用 `docker-compose down --volumes=false`。 3. **查看服务状态**： - `docker-compose ps`：列出所有服务及其容器的当前状态。 4. **重新创建容器**： - `docker-compose restart [SERVICE...]`：重启指定服务或所有服务的容器。 5. **进入容器**： - `docker-compose exec [SERVICE] [COMMAND]`：在指定服务的容器内执行命令。 6. **查看日志**： - `docker-compose logs [SERVICE...]`：查看服务容器的日志输出。 7. **构建镜像**： - `docker-compose build [SERVICE...]`：构建（或重新构建）服务的镜像。 8. **运行一次性命令**： - `docker-compose run [SERVICE] [COMMAND]`：在指定服务的容器中运行一次性命令，不改变服务的容器状态。 9. **配置检查**： - `docker-compose config`：验证并打印YAML配置文件的解析结果。 10. **暂停与恢复服务**： - `docker-compose pause [SERVICE...]`：暂停服务容器的运行。 - `docker-compose unpause [SERVICE...]`：恢复已暂停的服务容器。除此之外，还有其他一些命令，如： - `docker-compose pull`：拉取服务所需的镜像。 -

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。