深入剖析Hadoop程序日志

最新推荐文章于 2022-07-21 14:28:18 发布

tylgoodluck

最新推荐文章于 2022-07-21 14:28:18 发布

阅读量498

点赞数

分类专栏： hadoop 文章标签： hadoop log4j 集群脚本 java

hadoop 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

深入剖析Hadoop程序日志

前提

本文来自于博客园逖靖寒的世界 http://gpcuster.cnblogs.com

了解log4j的使用。

正文

本文来自于博客园逖靖寒的世界 http://gpcuster.cnblogs.com

*.log日志文件和*.out日志文件

进入我们的Hadoop_LOG目录，我们可以看到如下文件：

在启动Hadoop集群时，由hadoop-daemon.sh脚本指定一些列环境变量，然后log4j.properties文件读取相应的环境变量产生对应的*.log日志文件。这个日志文件输出类型为org.apache.log4j.DailyRollingFileAppender，它会自动按天更新。

*.out文件则是启动某个程序的标准输出重定向。

比如：

hadoop-admin-datanode-horde20.log是在horde20这台机器上启动datanode进程的日志输出，由log4j实现。

hadoop-admin-datanode-horde20.out则是在horde20这台机器上启动datanode时的标准输出。

这些日志仅仅包含在horde20这台机器上启动datanode进程的日志，没有其他的信息。

userlogs目录下的日志文件

进入userlogs目录，我们可以看到：

这里的每一个目录代表每一个task的输出日志。

进入其中一个目录可以看到：

这里的stderr和stdout记录了我们的task（map or reduce）的在这台机器上运行的过程中所产生的标准错误输出和标准输出。这些信息集群中的每一个机器上都会出现，如果数据量足够多的话:)

syslog则记录了在我们的task中，通过log4j接口记录的日志信息。

每一个task都会通过TaskRunner.run()来启动，它会为每一个子java程序指定标准错误输出和标准输出到前面提到的文件中，同时设置相应的参数，其中包括”-Dhadoop.root.logger=INFO,TLA”，这个TLA的定义可以在log4j.properties文件中找到，具体实现是org.apache.hadoop.mapred.TaskLogAppender。这个参数指定了在我们的task中，通过log4j接口记录的日志信息都记录到syslog中。

history目录下的日志文件

进入jobtracker机器的history目录，我们可以看到：

horde20_1250841267760_job_200908211554_0001_conf.xml记录了我们运行这个job时候的配置文件信息。

horde20_1250841267760_job_200908211554_0001_admin_wordcount记录了我们运行这个job的情况。

他们是由JobHistory产生的，并且只在jobtracker机器上产生。

EventCounter

在Hadoop的默认配置log4j.properties中，所有通过log4j接口记录的日志信息还会记录到一个叫EventCounter的Appender中，它的实现是org.apache.hadoop.metrics.jvm.EventCounter，具体的作用是统计Hadoop中使用log4j记录INFO，WARN，ERROR，FATAL信息的次数。

后记

本文介绍了Hadoop中所有的程序日志的来源和作用。希望能给开发和维护人员以帮助。

如果希望完全了解Hadoop的运行状况信息，还需要参考counter和metric。

tylgoodluck

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入剖析Hadoop程序日志

深入剖析Hadoop程序日志前提本文来自于博客园逖靖寒的世界 http://gpcuster.cnblogs.com了解log4j的使用。正文本文来自于博客园逖靖寒的世界 http://gpcuster.cnblogs.com*.log日志文件和*.out日志文件进入我们的Hadoop_LOG目录，我们可以看到如下文件：在启动
复制链接

扫一扫

专栏目录