1.美图
2.概述
Hadoop作业的用户日志有很多用途。首先,当运行中的MapReduce应用出错时,它们可以用于排查错误,包括应用本身的正确性问题、在集群上运行的竞争条件以及由于硬件或平台bug导致的调试任务1作业失败。其次,可以做日志的历史分析,看看作业中单个任务或工作流程随着时间如何运作。我们甚至可以利用HadoopMapReduce分析Hadoop
MapReduce用户日志定位任何性能问题。
处理应用生成的用户日志在过去是Hadoop的-一大痛处。在第1版Hadoop中,用户日志由TaskTracker留在了各个节点上,在本地节点上管理日志文件对于较长期分析不够充分,用户的访问也有很大不确定性。在应用完成后,YARN通过NodeManager提供的将日志安全地移动到HDFS.上的选项,搞定了这个日志管理问题。
3. YARN上的日志聚合
有了YARN,对于同属于一个应用且运行于一一个给定的NodeManager的所有Container的日志,可以聚合并写到指定文件系统中配置的目录里的一个单独的(可能被压缩)日志文件中。在目前的实现中,一旦应用完成了,我们就可以得到一个应用级的日志目录和与节点一一对应的日志文件,其中包括了运行在该个节点上这个应用的所有Container的日志。</