sparkOnYarn基础流程

在yarn上运行的基本操作
  • 程序提交的服务器需要包含HADOOP_CONF_DIR 或者 YARN_CONF_DIR环境变量,指向包含hadoop集群配置的文件目录

  • 因为程序提交时,不会指定 与 HDFS , YARN resourceMamager交互的地址和端口,是从服务器环境变量找到对于的配置文件去读取相应的配置

  • spark on yarn的两种运行方式:

    • cluster 模式:客户端初始化程序后退出了,driver程序会运行在集群上的Application master中被yarn管理
      • 日志需要登录到集群节点查看,client初始完成就结束了
      • 适用于生产环境
      • yarn-cluster 不支持spark-shell , 也不支持本地启动,只能通过spark-submit
      • img
      • 基础流程:
        • 客户端程序向ResourceManager提交申请
    • client模式:driver运行在客户端,application master只是用来从yarn申请资源
      • 适用于调试,能直接看到driver的日志,但是client断了,任务就结束了
      • 适用于交互与调试
      • img
  • 日志查看方式:

  • yarn logs -applicationId <app ID>
    
    • yarn.log-aggregation-enable 需要开启
    • 所有application的containers产生的日志都会被打印
  • 也可以直接查看hdfs日志文件

    • 文件位置:yarn.nodemanager.remote-app-log-dir and yarn.nodemanager.remote-app-log-dir-suffix
  • Spark Web UI 也可以查看

*	Spark history server 与 MapReduce history server 需要同时启动
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值