从事大数据行业的同事都了解数据库的运维是很复杂的一件事,集群大的时候,读写压力大,配置稍微不合理一点就有可能出现集群状态不一致的情况,糟糕一点直接导致某项业务不可用,甚至集群瘫痪。出现这种问题之后,一个合理的解决问题的步骤就非常有必要了。
这个步骤大致可以分为五个步骤:
1、定位现象问题所在。
首先与用户沟通现场环境情况,以及客户在出问题之前做过哪些重大操作,特别是一些特殊操作,平时没做过的。
2、提出解决方案,评估风险。
3、开始实施。
4、用户再自己验证一下是否正常。
5、总结经验。