前言
最近我们为了节省开支,大数据集群下了几个节点,结果没运行两天,就出现了掉节点的情况;
问题排查
经排查,发现节点并没有问题,可以正常登陆,排除节点、硬件故障;
去对应节点查看datanode.out日志,发现报错信息得知:节点挂掉原因是因为oom;
解决方案
定位到hadoop-env.sh文件中的hadoop_datanode_heapsize参数,现在我们集群的堆内存参数是3G,但是我们因为之前下了几个节点,导致我们每个节点的块数量有将近700万块;正常情况下,100万块对应1G左右的内存,我们这里设置8G,预留出1G;
然后滚动重启datanode,问题得到解决。