大数据学习之路（六）spark

最新推荐文章于 2023-05-12 09:52:45 发布

菜鸟也有梦想啊

最新推荐文章于 2023-05-12 09:52:45 发布

阅读量193

点赞数

分类专栏：大数据学习之路文章标签： spark

本文链接：https://blog.csdn.net/huaicainiao/article/details/89816532

版权

大数据学习之路专栏收录该内容

5 篇文章 0 订阅

订阅专栏

spark

什么是spark：spark是一个计算框架

MR是一个批量处理框架，和spark里的spark-core一样

spark和MR的比较：

Spark相比MR速度快，MR作为一个job，在中间环节中结果是落地的（会经过磁盘交换），Spark计算过程中数据流转都是在内存的（减少了对HDFS的依赖）

	MR	spark
优点	资源隔离，稳定性高，开发过程中不涉及内存锁（互斥锁、读写锁）的开发）	多线程模型，速度快，适合低延迟的任务，适合于内存密集型任务
缺点	多进程模型，每个任务启动时间长，所以不适合于低延迟的任务	稳定性差

spark的运行模式：

            （1）单机模式：方便人工调试
           （2）Standalone模式：自己独立一套集群缺点：资源不利于充分利用
           （3）Yarn模式：
                           1）Yarn-Client模式：Driver运行在本地
                                       适合交互调试
                           2）Yarn-Cluster模式：Driver运行在集群（AM）
                                       正式提交任务的模式（remote）

spark与mapReduce作业之间的区别

spark中：--Application:spark-submit提交的程序

--Drive:完成任务调度以及和executor和cluster manager进行协调

--Executor:每个spark executor作为一个yarn容器（container）运行

--job：和MR中的job不同，MR中的job主要是map和reduce，而spark中的job很好区分，一个算子就是一个job

--task：是spark中最新的执行单元，RDD一般带有partition，每个partition在executor上运行就是一个task

--stage：是spark中独有的，一般来说一个job会切成一定数量的stage，各个stage按顺序执行