Spark的架构与执行流程

最新推荐文章于 2024-07-02 09:36:29 发布

小nove

最新推荐文章于 2024-07-02 09:36:29 发布

阅读量142

点赞数

分类专栏：概念性知识大数据

本文链接：https://blog.csdn.net/qq_44698610/article/details/102926381

版权

大数据同时被 2 个专栏收录

30 篇文章 0 订阅

订阅专栏

概念性知识

3 篇文章 0 订阅

订阅专栏

架构组成

RDD：弹性，分布式，只读的一个数据集。（抽象概念）
Exector：worker节点的一个进程：spark的任务是线程级别的。Exector负责对具体任务的分配
Exector的多线程执行任务与公用内存和磁盘的管理方式决定了优异性能
Application：用户自己编写的程序。包含了多个job与一个driver。
job：具体的操作，包含多个RDD及相应的操作
stage：job分配的一组task的集合
DAG：有向无环图
sparkContext：由RDD计算生成DAG。解析成stage给exector。
在spark上运行写好的jar包：

bin/spark-submit \(提交任务）
--class WordCount \（主类的全限定名）
--master spark://hadoop102:7077 \（master的指定）
WordCount.jar \（jar包的全限定名）
/word.txt \（指定文件的全限定名）
/out（指定输出的路径）