1.问题背景
我需要调试mapreduce函数,可是不像单机模式只有一个进程会将各种输出输出到控制台,我使用的是完全分布式(经过试验,伪分布式类似),这就需要其他方法了。
2.解决思路
从网上搜索标准输入输出到哪里去了,有两种方式,一种是访问50030端口,一种是访问$HADOOP_HOME/logs/userlogs/attempt_xxx目录,可是两种都失败了。
3.问题探索
发现这50030是针对JobTracker、TaskTracker的,而我的版本是0.23.4只有ResourceManager和NodeManager,所以该端口不管用了。
而访问目录的方法实际上可以用,不过不是存在网上写的位置
4.解决方法
要在网上查看,要启动historyserver和proxyserver两项服务,可以将start-yarn.sh文件后面一段改为
# start proxyserver
"$bin"/yarn-daemon.sh --config $YARN_CONF_DIR start proxyserver
# start historyserver
"$bin"/mr-jobhistory-daemon.sh start historyserver
同时将./stop-yarn.sh后面一段改为
# stop proxy server
"$bin"/yarn-daemon.sh --config $YARN_CONF_DIR stop proxyserver
# stop historyserver
"$bin"/mr-jobhistory-daemon.sh stop historyserver
再运行
sudo mkdir -p $HADOOP_HOME/share/hadoop/yarn/webapps/proxy
这是因为hadoop编译器把这个空目录忽略了,如果不新建会报找不到文件错误
最后一步就是更改yarn-site.xml的配置,感觉不怎么说得清楚,说一下大概
最后更改yarn-site.xml大家根据自己需要设置端口,需要增加yarn.log-aggregation-enable为 true,yarn.web-proxy.address为ip:port,yarn.nodemanager.remote-app-log-dir设置汇总后的目录位置,可任意,但不要以file:/开头,我还把yarn.log-aggregation.retain-seconds设置为-1,需设置mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address为 ip:port,此外要注意yarn.nodemanager.log-dirs不能以file:/开头否则无法在网页上查看。
然后在浏览器上输入historyserver的网址即mapreduce.jobhistory.webapp.address的值就可以查看输出了,首先选中job然后是map/reduce,再到task,最后到attempt,查看logs就可以看到map或reduce的输出(包括stderr、stdout、syslog)