开门见山
在使用阿里云的E-MR
的云平台的时候,发现使用Hive
服务无法查询数据。通过相关的报错,打开阿里云平台的控制台界面,发现在这个E-MR
的界面上HDFS
的NameNode
已经挂掉了。
问题处理
现在的问题就是NameNode
的挂了,那么我们现在重启一下这个NameNode
不就可以了吗?
具体实施步骤:
- 在阿里云的控制台上面,通过
web ui
来重启这个E-MR
的NameNode
的服务。发现解决失败。在网页上面点击这个重启的按钮,无法让这个程序正常重启。 - 开始在钉钉上摇人了。请来了阿里云的专家和我们这边的相关人员分析这个问题到底是怎么回事儿。通过开了一上午的会,判定是云平台的机器的资源过低。在这个部署流程里面有很大的问题。首先
Master
节点只有一台,配置是4c16G
。但是上面有NameNode
角色,SecondaryNameNode
,ResourceManager
角色,还有HMaster
角色。还有其他服务的主节点。首先从这上面来看的话,有很多服务都集中在这一个的机器节点上面。这个4C 16G
的机器压力很大可以理解,所以在这部分的解决方案下面,是关于该节点的配置升级或者是扩容再来解决的。 - 如果我是那种在第二点就等着别人来处理的话,可能就不会水这一篇了,在这块儿,我拿到了实际上
master
节点上的账号密码。我当时想的是,为什么我要去网页上点击启动NameNode
的节点,为什么我不可以直接在这个机器上面直接操作?所以我手动启动了一下NameNode
,然后现在服务稳定运行了。(当然后续这个服务器扩容和升级配置的操作也是需要的)
总结
虽然,阿里云的E-MR
的网页端可以很方便的操作这些服务的实例。如果真的遇上问题了,在网页端没有能够解决问题的话。那么我们不妨登陆到这些实例节点上面,用我们所拥有的知识,手动处理这些问题。