完全分布式或者伪分布式的hadoop中map和reduce的System.out与System.err的输出去哪儿啦?

1.问题背景

我需要调试mapreduce函数,可是不像单机模式只有一个进程会将各种输出输出到控制台,我使用的是完全分布式(经过试验,伪分布式类似),这就需要其他方法了。

2.解决思路

从网上搜索标准输入输出到哪里去了,有两种方式,一种是访问50030端口,一种是访问$HADOOP_HOME/logs/userlogs/attempt_xxx目录,可是两种都失败了。

3.问题探索

发现这50030是针对JobTracker、TaskTracker的,而我的版本是0.23.4只有ResourceManager和NodeManager,所以该端口不管用了。

而访问目录的方法实际上可以用,不过不是存在网上写的位置

4.解决方法

要在网上查看,要启动historyserver和proxyserver两项服务,可以将start-yarn.sh文件后面一段改为

# start proxyserver
"$bin"/yarn-daemon.sh --config $YARN_CONF_DIR  start proxyserver
# start historyserver
"$bin"/mr-jobhistory-daemon.sh start historyserver

同时将./stop-yarn.sh后面一段改为

# stop proxy server
"$bin"/yarn-daemon.sh --config $YARN_CONF_DIR  stop proxyserver
# stop historyserver
"$bin"/mr-jobhistory-daemon.sh stop historyserver

再运行

sudo mkdir -p $HADOOP_HOME/share/hadoop/yarn/webapps/proxy
这是因为hadoop编译器把这个空目录忽略了,如果不新建会报找不到文件错误

最后一步就是更改yarn-site.xml的配置,感觉不怎么说得清楚,说一下大概

最后更改yarn-site.xml大家根据自己需要设置端口,需要增加yarn.log-aggregation-enable为 true,yarn.web-proxy.address为ip:port,yarn.nodemanager.remote-app-log-dir设置汇总后的目录位置,可任意,但不要以file:/开头,我还把yarn.log-aggregation.retain-seconds设置为-1,需设置mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address为 ip:port,此外要注意yarn.nodemanager.log-dirs不能以file:/开头否则无法在网页上查看。

然后在浏览器上输入historyserver的网址即mapreduce.jobhistory.webapp.address的值就可以查看输出了,首先选中job然后是map/reduce,再到task,最后到attempt,查看logs就可以看到map或reduce的输出(包括stderr、stdout、syslog)


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值