一、Spark核心组件
实际工作中,会使用YARN Cluster模式。Spark在执行过程中懒执行,直到action操作时才触发job,之后根据宽依赖划分stage,stage被整理成TaskSet,TaskSet里面有多个task,每个task被分发到具体的executor里执行。
1、Driver
Spark驱动节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责:
1)将用户程序转化为job;
2)在Executor之间调度Task;
3)跟踪Executor的执行情况;
4)通过UI查询展示运行情况;