Hadoop批处理作业提交问题运行监控--问题解决

最新推荐文章于 2024-07-24 17:33:05 发布

weixin_30710457

最新推荐文章于 2024-07-24 17:33:05 发布

阅读量85

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/o-din/p/9991242.html

版权

1. Slave节点NodeManager启动，但是datanode未启动

首先检查datanode启动节点上hadoop-2.7.2/hdfs/data/current/VERSION中的clusterid是否和namenode同目录下clusterid一致

然后在看storageid是否存在

2. 用Hibench提交作业出现的问题

du: `hdfs://centos35:9000/HiBench/Sort/Input': No such file or directory

本人批量流式sparkstreaming转过来的，所以忽略了一点，批量流式的数据是源源不断到来的，而批处理作业的数据是需要指定数据所在的文件夹，且保证作业提交时文件夹中有数据。

数据发生器启动./prepare后会向系统提交一个产生随机数的作业，这个作业的输出数据即使我们sort文件的输入数据，因此，需要等到随机数作业执行完再提交sort作业。

3. 学会查看log文件，找到问题

由于log文件会很多，这时候可以使用ls --full-time看看每个文件的时间，来确定哪一个才是我们要查看的文件。

4. 监控页面

localhost:8088 yarn

localhost:50070 hdfs

jobhistory节点的端口号：19888可以查看map数

5. 监控信息的获取

可从监控页面看到一些信息，但是还需要从log日志中获取更细节的信息，配置参考https://blog.csdn.net/lisongjia123/article/details/78639058

sbin/mr-jobhistory-daemon.sh start historyserver在namenode节点开启jobhistory服务

日志位置在namenode的hadoop文件夹下logs里存储

或输入指令： yarn logs -applicationId application_1542795109277_0004

监控页面端口号：19888

container日志在/data/yarn/logs/jobid/syslog中存储

aggregatelog所在位置是hdfs，不是对应的物理节点位置，hdfs dfs -get /tmp/aggregate-log /home/zc/data拉取到本地

转载于:https://www.cnblogs.com/o-din/p/9991242.html

weixin_30710457

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop批处理作业提交问题运行监控--问题解决

1. Slave节点NodeManager启动，但是datanode未启动首先检查datanode启动节点上hadoop-2.7.2/hdfs/data/current/VERSION中的clusterid是否和namenode同目录下clusterid一致然后在看storageid是否存在2. 用Hibench提交作业出现的问题du: `hdfs://centos35:9000/...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。