

无论多么先进,没有哪个 IT 系统能够完全避免故障。数字钢环的承诺听起来可能很有吸引力,但它能保护您免受硬件故障、软件错误、意外环境条件、网络安全威胁和人为错误的影响吗?而这些只是开始。
正如 Gartner 去年在《如何应对云中断》一书中所解释的那样:
所有系统都可能出现故障。我们不可能购买永不损坏的硬件,我们不可能构建完全没有错误的软件,最重要的是,我们必须始终忍受人为错误。
我们不可能不犯可能导致停机、服务质量下降或数据丢失的错误。但是,我们可以尝试减少故障的影响。
这应该是任何有关网络安全的讨论的起点——无论是在董事会会议室还是安全运营中心——因为只有做好准备并保持警惕,我们才有希望保持安全。
如果最坏的情况发生——当最坏的情况发生时——拥有正确的流程和协议来处理此类问题意味着组织已做好恢复的准备。
IT基础设施多样化
首先要解决的问题之一是缺乏不过度依赖单个系统的强大恢复机制。
作为一种策略,这种孤注一掷的方法几十年来一直被 IT 部门采用,目的是降低成本和简化运营。
但由于现代运营的复杂性和规模不断增加,这种曾经可靠的策略现在开始出现漏洞。
今年夏初, Crowdstrike 的全球 IT 故障影响了从医疗保健到交通基础设施等各个领域,这一点尤为突出。
这次中断不是恶意行为造成的,但其影响却波及全球,表明一旦出现问题,事情很容易陷入停顿。
它暴露并利用了我们当前 IT 系统中固有的风险,即一次故障就可能导致大范围中断。
这就是为什么 IT 团队需要考虑多样化——使用“平台的平台”——这将确保不同的系统能够独立运行和恢复,同时在危机期间相互支持。
通过采用多家供应商和混合云环境,组织可以更好地做好准备,这样如果一个平台出现故障,其他平台可以弥补不足。
虽然这种策略增加了生态系统的复杂性,但它可以确保您做好恢复准备,并能够抵御复杂、混合和基于云的环境中的大面积中断,从而降低风险。
数据可信度和实时监控
采取这样的行动并不是一蹴而就的。它需要思维的转变和新的战略方法。
这承认了在当今快节奏的世界中,IT 团队再也不能被动应对。他们需要完全了解整个 IT 基础设施,并实时访问准确的数据。
如果他们想在问题演变成更大问题之前抢占先机,这种程度的监控和预见至关重要。
在停机期间,组织最不想做的事情就是浪费宝贵的时间收集数据(可能已经过时或不准确)以进行分类和规划后续步骤。
实时检测、分析和解决潜在故障的能力是有效 IT 管理的基石。
因此,IT 团队必须投资于不仅能提供可见性,还能提供自动警报和预测性见解的工具。
但他们还需要深度防御和资源来采用多层安全和运营控制来保护系统。
这与使用多家供应商的方法类似——在这种情况下,如果一道防线失效,其他防线仍能保持完好,以保护系统免受不断升级的威胁。
每一层(无论是防火墙、加密、访问控制还是事件响应机制)都协同工作,以确保系统的弹性。
例如,一个系统中的漏洞可以通过其他保护措施来缓解,进而有助于防止连锁故障。
风险防范与业务连续性
显然,IT 故障不仅仅是一种可能性,而是不可避免的。只是等待事情出错再做出反应是一种自找麻烦的高风险做法。
相反,组织必须主动出击,采取注重早期检测、持续监控和风险预防的策略。
这意味着要为最坏的情况做好计划,同时也要为恢复做好准备。毕竟,IT 基础设施管理的一大重点是业务连续性。
它涉及在一切顺利时实现最佳性能,同时确保系统快速恢复并继续运行,即使面临重大中断也是如此。
这需要采取全面的 IT 管理方法,预测故障并制定恢复计划。
现在投资于弹性意味着未来中断更少、运营稳定性更强,并最终在当今快速发展的数字世界中占据竞争优势。
这意味着要采取前瞻性的 IT 弹性方法,重点关注多样化、实时监控、主动风险管理和分层安全。
毕竟,失败的风险不是是否会发生的问题,而是何时发生的问题。


1万+

被折叠的 条评论
为什么被折叠?



