作者:朱超杰
文档编写目的
日志聚合是YARN提供的日志集中化管理功能,它能将运行完成的Container任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个集中式存储和分析机制。默认情况下,Container任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。本文需要介绍的yarn.nodemanager.remote-app-log-dir配置是当应用程序运行结束后,日志被转移到的HDFS目录,默认是/tmp/logs。本文将模拟修改该目录,然后又将其修改回默认。
- 测试环境
1.CM和CDH版本均为5.16.2
2.集群正常运行
3.采用管理员用户登录CM
4.集群未启用Kerberos安全认证
问题重现
2.1 默认配置下的MR日志
1.集群当前运行正常
2.未修改配置前,YARN的yarn.nodemanager.remote-app-log-dir默认配置路径为/tmp/logs
3.查看/tmp/logs目录属性如下:属主为mapred,属组为hadoop,目录权限为777。
hdfs dfs -ls /tmp/
4.执行MR作业测试,可以正常执行
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 5 5
5.查看作业日志,日志可以正常查看
2.2 YARN配置修改后的日志
1.查看当前HDFS上不存在/data0/tmp/logs目录
hdfs dfs -ls /
hdfs dfs -ls