在yarn上运行的基本操作
-
程序提交的服务器需要包含HADOOP_CONF_DIR 或者 YARN_CONF_DIR环境变量,指向包含hadoop集群配置的文件目录
-
因为程序提交时,不会指定 与 HDFS , YARN resourceMamager交互的地址和端口,是从服务器环境变量找到对于的配置文件去读取相应的配置
-
spark on yarn的两种运行方式:
-
日志查看方式:
-
yarn logs -applicationId <app ID>
yarn.log-aggregation-enable
需要开启- 所有application的containers产生的日志都会被打印
-
也可以直接查看hdfs日志文件
- 文件位置:yarn.nodemanager.remote-app-log-dir and yarn.nodemanager.remote-app-log-dir-suffix
-
Spark Web UI 也可以查看
* Spark history server 与 MapReduce history server 需要同时启动