大数据，之spark入门之一：spark组件

最新推荐文章于 2024-09-06 19:15:00 发布

BAO7988

最新推荐文章于 2024-09-06 19:15:00 发布

阅读量272

点赞数

分类专栏：大数据文章标签：大数据 spark

本文链接：https://blog.csdn.net/BAO7988/article/details/103367346

版权

本文介绍了Spark的组件构成，包括SparkContext、Executor和Task等。讲解了Spark应用的生命周期，以及RDD（Resilient Distributed Datasets）的概念，强调了RDD的容错性和转换特性。此外，还讨论了RDD的依赖类型（窄依赖和宽依赖）以及持久化机制，提供了不同级别的缓存选项。

摘要由CSDN通过智能技术生成

一：spark的组件构成

1：每一个application有自己的executor的进程，它们相互隔离，每个executor中可以有多个task线程。这样可以很好的隔离各个applications,各个spark applications 不能分享数据，除非把数据写到外部系统。

2：SparkContext对象可以视为Spark应用程序的入口，主程序被称为driver program，SparkContext可以与不同种类的集群资源管理器(Cluster Manager），例如Hadoop Yarn、Mesos等进行通信，从而分配到程序运行所需的资源，获取到集群运行所需的资源后，SparkContext将得到集群中其它工作节点（Worker Node）上对应的Executors （不同的Spark应用程序有不同的Executor，它们之间也是独立的进程，Executor为应用程序提供分布式计算及数据存储功能），之后SparkContext将应用程序代码分发到各Executors，最后将任务（Task）分配给executors执行。

二：spark相关概念

Application 运行在集群上的用户程序，包含集群上的driver program 和多个executor线程组成；

Driver program application运行的main方法，并生成sparkcontext；

Cluster manager 集群资源管理器；

Deploy mode 部署模式用于区别driver program的运行方式:集群模式(cluter mode)，driver在集群内部启动；客户端模式（client mod

最低0.47元/天解锁文章

BAO7988

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据，之spark入门之一：spark组件

一：spark的组件构成1：每一个application有自己的executor的进程，它们相互隔离，每个executor中可以有多个task线程。这样可以很好的隔离各个applications,各个spark applications 不能分享数据，除非把数据写到外部系统。2：SparkContext对象可以视为Spark应用程序的入口，主程序被称为driver program，Spar...
复制链接

扫一扫