前提:
由于磁盘故障原因, 可能会导致 ceph osd 在晚上故障, 并自动完成数据迁移并自动修复功能
当早上执行更换硬盘操作后, 数据会重新再次迁移一次,
由于出现数据自动恢复功能, 会导致数恢复期间可能与用户使用数据高峰期重叠, 会导致用户 IO 抢夺
解决目的
避免 ceph 在故障时候自动执行 RECOVERY 功能
需要人工介入执行 RECOVERY 周期
ceph 故障恢复条件说明
1 ceph osd down
2 mon 无法获得 ceph osd heartbeat 信息标注 warning 信息, 并显示
3 五分钟后, mon 标记该 ceph osd 为 out 状态
4 当标记 out 状态后, ceph 执行自动 recovery 操作
日志记录收集
osd down, 从 mon 中, 我们可以马上对应获得信息 但不会标注为 out 状态, 因此没有执行相应的 recovery 操作
2017-08-15 17:22:30.299262 7fd537f8b700 1 mon.ceph-node81@0(leader).osd e535 e535: 14 osds: 11 up, 14 in
ceph -s 会获得对应报警信息
health HEALTH_WARN 209 pgs degraded; 75 pgs stuck unclean; 209 pgs undersized; recovery 38/165 objects degraded (23.030%); 3/14 in osds are down
当 mon 对对应的 osd 标注为 out 之后, 系统会自动执行 recovery 操作</