1 Spark StandAlone 的执行模式
1.1 client模式
Spark stand alone提交到集群中,默认的模式为client模式,默认参数是 --deploy-mode client
例如:
/opt/apps/spark-2.3.3-bin-hadoop2.7/bin/spark-submit --master spark://node-1.51doit.cn:7077 --class cn._51doit.spark.day01.WordCount --deploy-mode client /root/spark10-1.0-SNAPSHOT.jar hdfs://node-1.51doit.cn:9000/wc hdfs://node-1.51doit.cn:9000/out01
特点:Driver是在SparkSubmit进程中
Master跟Worker之间的通信的端口号是7077, RPC通信.
1.2 cluster模式
在Spark的stand alone集群中,提交spark任务时,可以使用cluster模式即--deploy-mode cluster
例如:
/bigdata/spark-2.3.3-bin-hadoop2.7/bin/spark-submit --master spark://node-1.51doit.cn:7077 --class cn._51doit.spark.day01.WordCount --deploy-mode client hdfs://node-1.51doit.cn:9000/jars/spark10-1.0-SNAPSHOT.jar hdfs://node-1.51doit.cn:9000/wc hdfs://node-1.51doit.cn:9000/out002
特点:Driver运行在集群中,不在SparkSubmit进程中,需要将jar包上传到hdfs中,让所有的worker都可以共用
在cluster模式中Sparksubmit只是将任务的描述信息,给了Master,Master再跟一个Worker建立连接,启动一个DriverWapper,
跟Master通信启动Executor,Executor跟DriverWappe