Spark运行特点-★
进程专属/进程隔离
- 我们提交给Spark的任务,会在Spark集群上申请资源并执行(资源的体现形式就是各个机器里面开辟了一些进程用来运行该任务)
- 注意:
- 分配给该任务的进程只会属于该任务(也就是该任务没有运行完这些进程不会干其他任务的活)
- 这样就做到了各个任务之间的进程隔离/进程专属!避免了多个Spark任务之间的数据干扰!
- 指的是提交到Spark集群的每个Spark应用程序都有自己的独立的一批Executor进程
- 不会和其他的Spark应用程序共享Executor进程,避免了多个Spark应用程序间的数据干扰
支持多种资源管理器
- 现在/未来可能Spark和云计算结合越来越紧密, SparkOnK8S 会比较火
job就近提交
移动程序而非移动数据的原则执行
- 和Hadoop的MapReduce一样,也是
移动计算比移动数据更划算
- 大多数情况下都是移动计算比移动数据更划算(因为大数据场景,移动数据的成本很高!)