yarn日志管理

在yarn上运行的程序,日志管理是由NodeManager进行管理的。其目录结构如下:

NodeManager会在所有目录上为同一个应用程序建立相同的目录结构,并会采用轮询的调度方式将这些目录分配给不同的Container使用。每个Container会输出三类日志:

             stdout:使用标准输出函数打印的日志,如scala的print()输出内容。

             stderr:标准错误产生的日志信息。

             syslog:使用log4j打印的日志信息,这是最常用的打印日志方式,默认情况下yarn采用这种方式打印日志。

 

由于NodeManager将所有Container的运行日志保存在了本地磁盘上,因此随着时间的推移,日志会越来越多。为了避免大量的Container日志撑爆磁盘,Nodemanager会定期的清理日志文件,该功能是由其组件LogHandler来完成的。总的来说Nodemanager提供了定期删除(由NonAggregatingLogHandler)和日志聚集转存(由LogAggregationService实现)俩种日志清理方式,默认使用的是定期删除。

 (1). 对于定期删除来说,Nodemanager允许一个应用程序日志磁盘保留时间为yarn.nodemanager.log.retain-seconds(单位是秒,默认为3*60*60),一旦超过该时间,Nodemanager会将该应用程序所有日志从磁盘删除。

  (2).对于日志聚集转存来说,管理员可通过将yarn.log-aggregation-enable设置为true来启用,该机制将HDFS作为日志聚集仓库,会将应用程序产生的日志都上传到HDFS,该机制又分为俩个阶段:文件上传和文件生命周期管理。

           文件上传:当一个应用程序结束时,它产生的所有日志将统一上传到${remoteRootLogDir}/${user}/${suffix}/${appid}下,其中${remoteRootLogDir}目录由yarn.nodemanager.remote-app-log-dir指定,默认是/tmp/logs;${user}为应用程序启动者;

${suffix}由参数yarn.nodemanager.remote-app-log-dir-suffix指定,默认是logs;一旦日志全部上传到hdsfs,本地磁盘上的日志文件将会被删除。为了减少不必要的日志上传,Nodema允许用户指定要上传的日志类型。支持的日志类型有三种:ALL_CONTAINERS(上传所有Container日志),APPLICATION_MASTER_ONLY(仅上传ApplicationMaster产生的日志),AM_AND_FAILED_CONTAINERS_ONLY(上传ApplicationMaster跟运行失败的Container产生的日志),默认情况时上传所有。

           文件生命周期:转存到hdfs的日志,生命周期不再由Nodemanager负责,而是由JobHistory 服务负责管理。每个日志文件最大存留时间为yarn.log-aggregation.retain-seconds(单位为s,默认为3*60*60,即3小时)。

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值