亚马逊(Amazon)的分析现在已经从长达4小时的中断中恢复过来,这让互联网的大部分时间都陷入了停顿,分析师们正在回头看,看看公司能从这场灾难中吸取什么教训。
系统崩溃——或者像AWS所称的那样,“增加了错误率”——周二敲出了AWS S3存储服务的一个区域。
这反过来又降低了AWS在该地区的托管服务,防止EC2实例的启动、工作中的弹性Beanstalk等等。
在这个过程中,从Docker和Slack到Nest的组织,Adobe和Salesforce.com都有一些或全部的服务在持续时间内被关闭。
根据分析公司Cyence,标准普尔500指数成份股公司仅损失了约150美元(£122)停机,而金融服务公司在美国估计有160美元下降(£130)。
停电的中心是美国东海岸的一个地区:位于弗吉尼亚州的美国-东- 1工厂。
由于它的成本较低,而且熟悉应用程序程序员,所以对于那些使用AWS来存储云存储和虚拟机实例的公司来说,一个位置是一个非常受欢迎的目的地。
由于开发人员将他们的代码集中在那里,当它掉下来的时候,它从web中取出了一大块。
创业公司和大型组织发现,在所有其他地区,AWS提供的服务更便宜,更容易使用。
这是亚马逊最古老的地方,也是他们最熟悉的地方。
在理想的情况下,程序员应该将他们的软件扩展到多个区域,这样任何失败都可以被吸收和恢复。
对于一些开发人员来说,这太生硬,太难以实现了;
它引入了额外的复杂性,这意味着额外的bug,这使得工程师们变得谨慎;
它推高了成本。
例如,对于第一个50TB,在us - east - 1中S3存储的成本是0.023美元/月,而在加州的us - west - 1则为0.026美元。
在多个数据中心之间传输应用程序之间的信息也要花钱:AWS收费0.010美元,从us - east - 1到俄亥俄州的us - east - 2,以及其他任何地区的0.020美元。
然后还有延迟问题。
从us - east - 1到us - west - 1的数据包显然需要时间。
最后,在一个友好的区域内,你可以更容易地将你的web应用程序和智能手机应用程序的后端plonk,并安然度过任何风暴。
整个地区的蒸发是很罕见的。
“作为最古老的地区,也是美国东海岸唯一一个到2016年的公共区域,它拥有许多最早和最大的客户,”IDC研究主管迪帕克·莫汉(Deepak Mohan)说。
这也是他们最大的地区之一。
由于这一点,对该地区的影响通常会影响到比例过高的客户。
Enderle Group的首席分析师罗布•恩德尔(Rob Enderle)表示,成本是一个重要因素。
“公共云服务提供商的问题——尤其是像亚马逊这样价格高昂的公司——是你的数据流向最便宜的地方。”
这是当你去亚马逊和IBM的Softlayer时所做的权衡之一,”Enderle说。
“有了亚马逊或谷歌,你就会有可能出现地区停电的风险。”
尽管这些因素使那些依赖美国东部地区为其服务的客户感到特别困难,但即使是那些为这种情况而计划并建立多个地区的人,也很可能在停电时陷入困境。
在us - east - 1的云桶冻结和服务消失后,一些开发人员发现他们的代码在其他地区无法弥补,原因多种多样。
“很难说到底发生了什么,但我推测,不管发生了什么,都有一个问题,多个网站试图同时出现在其他地区或地区,”pund - It的首席分析师Charles King告诉El Reg。
“这就像试图用一加仑的水管浇100加仑的水,最终你会看到一个巨大的崩溃。”
行业分析人士说,他们的结论是,公司应该考虑将冗余构建到他们的云实例中,就像在使用on - premises系统时一样。
这可能以在多个区域设置虚拟机或使用混合方法来保持云和on - premises系统的形式出现。
而且,就像测试备份一样,测试失败的过程实际上是有效的。
“我认为我们已经习惯了云已经成为许多公司的万灵药,”King说。
“对于企业来说,认识到云是他们新的遗留系统是很重要的,如果最坏的情况发生,使用云计算的企业比那些选择自己的私人数据中心的企业更糟糕,因为他们的知名度和控制力更低。”
虽然宕机可能不会对公司的云服务移动造成影响,但它可能会让一些人有理由暂停,这可能不是一件坏事。
“这强调的是灾难恢复路径的重要性,对于任何有实时更新需求的应用程序来说,无论是面向消费者的网站还是内部企业应用程序,”IDC的莫汉说。
“这里最大的收获是需要一个健全的灾难恢复架构和一个满足应用程序需求和约束的计划。
这可能是通过多个区域、多个云或其他回退配置的使用。
“®
` Main^ Main^ 6363-54^ 6363-54^ 6362-55^ 6362-55^ 6361-56^ 6361-56^`