分布式存储集群的可靠性已经很高,但在大容量集群环境下,出现任何故障都可能带来集群性能
问题或者数据安全隐患,因此要做好对集群状态监控及故障恢复。当故障发生后,我们要及时使用正确的处理方式排除故障。
1、获取集群状态
集群状态有3种,具体如下:
·HEALTH_OK:表示集群运行良好。
·HEALTH_WARN:表示警告。在某些情况下,Ceph状态会从HEALTH_WARN状态自动返回
到HEALTH_OK状态,例如,Ceph集群完成再平衡时。但是,如果集群处于HEALTH_WARN状态的时间很长,就需要排查是否存在问题。
·HEALTH_ERR:表示出现更严重的问题。你可以使用ceph health detail和ceph -s命令来获取更详
细的输出。
除了掌握Ceph集群的基本状态,当出现问题时,你要能准确地找到相关报错信息和日志,以便
快速定位问题。默认情况下,Ceph将其日志存储在/var/log/ceph/目录下,CLUSTER_NAME.log包含全局事件的主存储集群日志。默认情况下,日志文件名为ceph.log,只有MON节点包括主存储集群日志。
每个OSD和MON节点都有其独立的日志文件,名称分别为CLUSTER_NAMEosd.NUMBER.log和CLUSTER_NAMEmon.HOS