高可用性、性能监测与灾难恢复规划
在服务器集群投入运行后,我们需要进行一系列的高级规划、灾难恢复规划以及对现有解决方案进行监测。这不仅关乎系统的持续稳定运行,还对业务的发展和成功起着至关重要的作用。
高可用性规划
高可用性规划的成功关键在于精心的设计和深入的研究。IT 人员应将自己视为技术领域的专业人士,不断学习和更新技能,对待工作要像经验丰富的外科医生一样严谨。
规划停机时间
我们应尽可能实现接近 100% 的系统正常运行时间,但这在现实中是不切实际且无法保证的。由于磁盘崩溃、电源或 UPS 故障、应用程序问题导致的系统崩溃以及其他硬件或软件故障,系统可能会出现停机。目前,99.999% 的正常运行时间是比较合理的目标。如果承诺一年 99.999% 的正常运行时间,那么停机时间大约为五到十分钟。不过,考虑到计划内的停机和可能的灾难恢复测试,追求 99.9% 的正常运行时间更为实际,这意味着每年大约有九到十个小时的停机时间。
我们可以通过以下公式计算正常运行时间的百分比:
每年正常运行时间百分比 = (8760 - 每年总停机小时数) / 8760
例如,如果每月安排八小时的维护和停机时间(一年共计 96 小时),那么系统的正常运行时间百分比约为 98.9%。
停机时间可分为计划内和意外停机。意外停机的来源包括:
- 磁盘崩溃或故障
- 电源或 UPS 故障
- 应用程序问题导致的系统崩溃
- 其他硬件或软件故障
超级会员免费看
订阅专栏 解锁全文
1240

被折叠的 条评论
为什么被折叠?



