一、DataNode和NameNode进程同时只能有一个工作的问题
NameNode在format初始化后会生成cluster ID(集群id)
DataNode在启动后也会生成和NameNode一样的clusterID
当NameNode突然被杀死或集群突然宕机,再次格式化后NameNode会生成新的clusterID,与未删除的DataNode的clusterID不一致就会导致该问题的发生。
解决方法:
① 先停止所有进程
② 删除DataNode里的信息(默认在/tmp,如果修改了就在自己配置的目录下)
hadoop102/103/104都要删除。即所有虚拟机上都要删除
③ 格式化后启动集群
二、SSH免密登录没有配置完全
如果免密登录没有配置好也会出现进程缺少的问题,检查是否所有节点都配置了SSH免密登录,包括自身节点。
三、配置文件错误
大家在修改好配置文件后,最好再检查一遍内容是否正确。
如果进程没有正常启动,查看发现是配置文件出错,先把集群所有进程关闭,修改好配置文件后重新格式化。