一次因为数据问题引起的reduce被卡住streaming作业问题排查

        广告产品技术部有一个作业总是卡在某个reduce上,运行了好几个小时也运行不完,经过他们初步排查找不着问题原因,发邮件让我帮看看,我看了一下这个streaming作业是用python实现的,而且听他们描述,3月17之前该作业是没问题的,以下是可能存在问题的地方:

1、集群节点有问题

2、作业的配置参数不对,导致reduce运行有问题

3、数据问题

那就一一来排查这些问题吧。

第一点,我看了一下被卡住reduce运行的节点,NodeManager日志正常,dmesg日志正常,负载和内存使用都很正常,排查了集群问题的可能性。

第二点,我找到了被卡住reduce正在运行的java进程,通过jstat -gcutil $pid 和top -p $pid查看内存和cpu使用情况都很正常,堆内存是够用的,很长时间才出现一次FGC,不是内存的问题,看cpu使用情况,才0.3%的使用,严重正常,看来根本不是cpu的问题。

第三点,我看了一下reduce的日志,reduce任务已经完成了copy和merge,是在进行数据处理的时候出现被卡住的&

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值