在Spark中,支持4种运行模式:
- 1)Local:开发时使用
- 2)Standalone: 是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署Spark环境
- 3)YARN:建议大家在生产上使用该模式,统一使用YARN进行整个集群作业(MR、Spark)的资源调度
- 4)Mesos
不管使用什么模式,Spark应用程序的代码是一模一样的,只需要在提交的时候通过–master参数来指定我们的运行模式即可
1、Local模式下
提交Spark Application到环境中运行。如果要写入数据库数据则需要加上 --jars
1、该模式操作路径在本地的数据
spark-submit \
--name SparkSessionApp \
--class com.imooc.spark.SparkSessionApp \
--jars /www/lib/mysql-connector-java-5.1.25.jar \
--master local[2] \
/www/lib/sql-1.0.jar \
/www/instl/spark/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/src/main/resources/people.json
2、该模式操作路径在hdfs上的数据
spark-submit \
--name SparkSessionApp \
--class com.imooc.spark.SparkSessionApp \
--jars /www/lib/mysql-connector-java-5.1.25.jar \
--master local[2] \
/www/lib/sql-1.0.jar \
hdfs://hadoop001:8020/inputfile