核心进程状态检查
|
节点类型 |
执行命令 |
正常状态下应出现的进程 |
|
主节点 |
jps |
- NameNode(HDFS 主节点) - ResourceManager(YARN 资源管理) - SecondaryNameNode(HDFS 元数据备份,可选) |
|
从节点 |
jps |
- DataNode(HDFS 数据节点) - NodeManager(YARN 节点管理) |
HDFS分布式健康状态检查
1.整体健康状态
#查看HDFS集群报告(节点数量,存储使用,健康状态)
hdfs dfsadmin -report
# 正常结果判断:
# 所有 DataNode 状态为 "Live datanodes"(无 Dead 节点)
# 总容量、已用容量、剩余容量显示正常
# 节点数量与实际部署的从节点数一致
2.namenode状态与安全模式
#查看NameNode状态(包括安全模式状态)
hdfs dfsadmin -nsadmin -reports
#检查是否处于安全模式(安全模式下无法写入数据)
hdfs dfsadmin -safemode get
#正常结果:返回"safe mode is off"
3.文件系统操作验证
hdfs dfs -ls / #查看/目录下
hdfs dfs -mkdir /test #创建目录test
echo "hello hdfs" >> test.txt
hdfs dfs -put test.txt /test/ #将文件传入目录test中
hdfs dfs -get /test/test.txt test_download.txt #下载文件test并更名为test_download.txt
hdfs dfs -rm -r /test #清理删除文件
rm -f test.txt test_download.txt
4.块状态检查
hdfs fsck / | grep -i "corrupt" #检查损坏的块(正常应无损坏)
hdfs fsck / #查看所有的块
yarn资源管理器检查
1.节点与资源状态
yarn node -list #查看yarn集群所有节点状态
yarn node -status <节点IP> #查看节点详细资源,CPU内存配置
2.应用程序状态
yarn application -list #查看正在运行的应用
yarn application -list -appStatus FINISHED #查看历史完成应用
yarn application -status <应用ID> 查看他额定应用的详细信息
3.队列与资源分配
yarn queue -status default #查看yarn队列配置与资源使用情况
#正常情况下,队列状态应为Running,资源分配符合配置
4.服务端口与服务连通性检查
#检查namenode端口(默认9000用于RPC,50070用于Web)
netstat -tulpn | grep 9000
netstat -tulpn | grep 50070
#检查RessourceManger端口(默认8032 用于RPC,8088用于Web)
netstat -tulpn | grep 8032
netstat -tulpn | grep 8088
#从节点测试与主节点的连通性
telenet <主节点IP> 9000 #成功会显示"connected"
#或使用nc命令
nc -zv <主节点IP> 9000 #成功会显示"succeeded"
日志查看(故障排查核心)
1.当上述检查出现异常时,通过日志定位问题
#查看namenode日志(主节点)
tail -100 $HADOOP_HOME/logs/hadoop-$(whoami)-namenode-$(hostname).log
#查看DateNode日志(从节点)
tail -100 $HADOOP_HOME/logs/hadoop-$(whoami)-namenode-$(hostname).log
#查看ResourceManager日志(主节点)
tail -100 $HADOOP_HOME/logs/yarn-$(whoami)-resourcemanager-$(hostname).log
#查看ResourceManager日志(从节点)
tail -100 $HADOOP_HOME/logs/yarn-$(whoami)-nodemanager-$(hostname).log
2.集群重启与快速查看
#停止整个集群(主节点执行)
stop-all.sh
#或分别停止HDFS和YARN
stop-dfs.sh
stop-yarn.sh
#启动整个集群
start-all.sh
#或分别启动HDFS和YARN
start-dfs.sh
start-yarn.sh
277

被折叠的 条评论
为什么被折叠?



