Spark学习笔记

最新推荐文章于 2024-09-07 15:28:07 发布

挡风挡雨当太阳

最新推荐文章于 2024-09-07 15:28:07 发布

阅读量235

点赞数

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38312279/article/details/78379129

版权

产生背景

数据增长
随着互联网规模的爆发式增长，不断增加的数据量要求程序能够在更大规模的集群中进行计算
集群计算
集群计算引发数据共享，单点故障，执行效率以及程序并发执行等问题，从而产生了许多大数据处理框架。
不同的大数据计算框架带来了新的问题
大量数据模型的诞生，导致不同类型的计算，通常需要不同的处理框架，不同的处理框架由于天生的差异带来了重复计算，适用范围的局限性，资源分配，统一管理等问题。

spark组件

Client：提交应用的客户端
Driver：执行application中的main函数，创建Spark Context
Cluster Manager：在Yarn模式中为资源管理器，在Standalone模式中为控制整个集群的Master节点
Worker：从节点，负责控制计算节点。启动executor或者driver，在Yarn模式中为nodemanager
Executor：计算节点上执行任务的组件
SparkContext：应用的上下文，控制应用的生命周期
RDD：弹性分布式数据集，Spark的基本计算单元
DAG Schedule：根据应用构建基于Stage的DAG，并提交给Task schedule
Task Schedule：将task分发给executor
SparkEnv：线程级别的上下文

spark运行逻辑

工作流程

挡风挡雨当太阳

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。