【E-MR】NameNode的错误恢复记录

本文记录了在阿里云E-MR平台上遇到Hive服务无法查询数据的问题,原因是NameNode挂掉。尝试通过控制台重启失败后,作者登录实例节点手动启动NameNode,使得服务恢复正常。问题的根本在于Master节点资源过低,导致多个服务集中在一个节点上。解决方案是升级或扩容Master节点配置。博客强调了在网页端操作无效时,直接在实例上解决问题的重要性。
摘要由CSDN通过智能技术生成

开门见山

在使用阿里云的E-MR的云平台的时候,发现使用Hive服务无法查询数据。通过相关的报错,打开阿里云平台的控制台界面,发现在这个E-MR的界面上HDFSNameNode已经挂掉了。

问题处理

现在的问题就是NameNode的挂了,那么我们现在重启一下这个NameNode不就可以了吗?
具体实施步骤:

  1. 在阿里云的控制台上面,通过web ui来重启这个E-MRNameNode的服务。发现解决失败。在网页上面点击这个重启的按钮,无法让这个程序正常重启。
  2. 开始在钉钉上摇人了。请来了阿里云的专家和我们这边的相关人员分析这个问题到底是怎么回事儿。通过开了一上午的会,判定是云平台的机器的资源过低。在这个部署流程里面有很大的问题。首先Master节点只有一台,配置是4c16G。但是上面有NameNode角色,SecondaryNameNodeResourceManager角色,还有HMaster角色。还有其他服务的主节点。首先从这上面来看的话,有很多服务都集中在这一个的机器节点上面。这个4C 16G的机器压力很大可以理解,所以在这部分的解决方案下面,是关于该节点的配置升级或者是扩容再来解决的。
  3. 如果我是那种在第二点就等着别人来处理的话,可能就不会水这一篇了,在这块儿,我拿到了实际上master节点上的账号密码。我当时想的是,为什么我要去网页上点击启动NameNode的节点,为什么我不可以直接在这个机器上面直接操作?所以我手动启动了一下NameNode,然后现在服务稳定运行了。(当然后续这个服务器扩容和升级配置的操作也是需要的)

总结

虽然,阿里云的E-MR的网页端可以很方便的操作这些服务的实例。如果真的遇上问题了,在网页端没有能够解决问题的话。那么我们不妨登陆到这些实例节点上面,用我们所拥有的知识,手动处理这些问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值