最近老是忘记东西,,,在这里简单记录一下
1、在yarn上启动spark程序
修改 spark-env.sh文件,配置hadoop的配置文件,或者yarn的配置文件即可(两者选择其中一种即可)
指向包含Hadoop集群的(客户端)配置文件的目录。这些配置用于写入HDFS并连接到YARN ResourceManager。此目录中包含的配置将分发到YARN群集,以便应用程序使用的所有容器使用相同的配置。如果配置引用了非YARN管理的Java系统属性或环境变量,则还应在Spark应用程序的配置中设置它们(驱动程序,执行程序和在客户端模式下运行时的AM)。
export HADOOP_CONF_DIR=/use/local/hadoop/etc/hadoop/
#或者
export YARN_CONF_DIR=/use/local/hadoop/etc/hadoop/
2、两种部署模式
2.1、cluster模式
Spark驱动程序在应用程序主进程内运行,该进程由群集上的YARN管理,客户端可以在启动应用程序后消失。
2.2、client模式
驱动程序在客户端进程中运行,应用程序主服务器仅用于从YARN请求资源。
2.3、yarn 模式参数
在YARN模式下,资源管理器的地址从Hadoop配置中获取。因此,--master
参数是yarn
。如以下代码所示:
./bin/spark-submit --class path.to.your.Class --master yarn