Hadoop作业监控

       hadoop作业在运行的时候可能遇到各种各样的问题,需要我们通过工具来逐个排查。一种手工排查方式就是到yarn 或者jobhistory(已经运行完的任务)查看各个map,reduce报错,根据所有map task以及reduce task的耗时排序查看任务是否倾斜。这种任务数据读取的都是appmaster写在hdfs的数据。配置项为:

      <name>mapreduce.jobhistory.done-dir</name>

      那么我们如何监控这些任务?自动收集这些任务信息?而不是一个个点开yarn UI分析任务。

      一种应该是通过resourcemanager的restapi解析通过调用api返回的json数据然后写到db中。

      另一种方式就是sparkstreaming读取hdfs 上述配置的目录 的.jhist 格式文件然后解析存储到db,这种可以做到实时。

可以通过streamingcontext的receiverStream 接口实现一个自动发现目录下的.jhist 文件,提交给线程池处理。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值