一、【影响范围】
各java服务与php服务
二、【故障表现】
应用写入redis出现只读,导致无法写入
应用无法连接mongodb服务
用户相关功能不可用、物资等基础服务不可用
三、【处理过程】
清空有问题的数据库上各个主从配置,使其状态不为从,能成功读写
四、【原因分析】
由于数据库对应ip的keepalived检测脚本不能正常使用(脚本已在测试环境验证,因redis6382与redis6381的vip已成功切换,不能切换的原因为原因2),导致vip不能进行切换,而redis的主服务器已经切换到数据库对应ip上,导致服务大面积的报READONLY You can’t write against a read only slave,
由于上出现新的vip数据库对应ip网段,导致服务不能正确识别路由,连接不到数据库对应ip上,导致服务报Timed out after 30000 ms while waiting for a server
五、【改进措施】
在测试环境中充分验证,形成上线步骤并审核,对重大变更输出回退方案
变更期间,出现重大影响且在三到五钟内无法解决,立即回退
重大变更前应提前通知,并在操作前、操作中、操作完成的状态反馈,如需要延期操作提前通知