Spark流程梳理

最新推荐文章于 2023-06-29 19:00:00 发布

dhylanyu1

最新推荐文章于 2023-06-29 19:00:00 发布

阅读量172

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/dhylanyu1/article/details/118933874

版权

4 篇文章 0 订阅

订阅专栏

组件概述

进程，主要负责资源的调度和分配、集群的监控

进程，

进程，
一个Executor执行多个task，多个Executor可以并行执行，最大Executor为集群的可以CPU核数-1

线程，具体的Spark任务是在Task上执行的，某些并行的算子，有多少个分区就有多少个Task，但是有些算子像take这样的只有一个task。

Spark比Hadoop快的原因主要是：

task启动时间快，Spark是fork出线程，而MR是启动新进程
更快的shuffle，Spark只有在shuffle时才将数据放在磁盘，而MR不是
更快的工作流，MR工作流是由很多MR作业组成，他们之间的数据交互需要持久化到磁盘才行，而Spark支持DAG即pipeline，在没有shuffle时完全可以不把数据放磁盘
缓存，spark的缓存更高效，可以将数据缓存到内存
在比较短的作业中，能快上100倍，但是在真实生产环境下，一般只会快2~3倍。