spark中会遇到的一些名词

最新推荐文章于 2024-04-28 19:13:48 发布

代码与思路齐飞

最新推荐文章于 2024-04-28 19:13:48 发布

阅读量231

点赞数

分类专栏： Spark 文章标签： spark 名词概念大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dsl200970/article/details/70148169

版权

Spark 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

RDD Resillient distributed dataset 弹性分布式数据集

Application Spark的用户程序

Driver Program 运行main函数并且新建SparkContext的程序

Cluster Manager Spark集群资源调度服务（standalone，mesos，yarn）

Worker Node Spark集群中的运行应用代码的节点

Executor worker node的一个进程，负责运行任务，并且负责将数据存在内存或磁盘上。每个应用都用独立的executor

Task 被送到某个executor上的工作单元

job 包含多个RDD及作用于RDD上的各种operation（每个job包含多个stage，一个 stage是由task完成）

Stage 一个job分为多个阶段

Narrow Dependency 窄依赖，子RDD依赖父RDD中固定的data partition

Wide Dependency 宽依赖，子RDD对父RDD的所有data partition都有依赖

Caching Management 缓存管理，对RDD的中间计算结果进行缓存管理以加快整体的处理速度

可以通过哪些模式运行Spark

Local 使用与windows和linux平台（多用于测试）。

Standalone spark集群模式，使用spark自己的调度方式。

Yarn 对Mapreduce V1升级的经典版本，支持spark。

Mesos 类似Yarn的资源调度框架，提供了有效的、跨分布式应用或框架的资源隔离和共享，可以运行Hadoop、Spark等框架。

代码与思路齐飞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark中会遇到的一些名词

RDD Resillient distributed dataset 弹性分布式数据集Application Spark的用户程序Driver Program 运行main函数并且新建SparkContext的程序Cluster Manager Spark集群资源调度服务（standalone，mesos，yarn）Worker Node Spark集群中的运行应用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。