我看二月底 AWS S3 停机故障

最新推荐文章于 2024-09-15 14:50:06 发布

cogito1029

最新推荐文章于 2024-09-15 14:50:06 发布

阅读量147

点赞数

文章标签：运维大数据

2月底的这次 AWS S3 故障，有几个小时 S3 存储不能正常使用，连带效果是不少依赖 S3 的 SaaS 应用也受到影响。对公有云可靠性的质疑和指责声在网上是铺天盖地，一些带有色眼镜的公司和专家乘势鼓吹自建数据中心和混合云的必要性，不然就是等死。云架构设计大师 Michael Kavis 认为要理性分析，在使用公有云服务之前就应该针对失效场景进行设计（Design for failure）。Kavis 的建议归纳起来有这么几点：1. 建混合云还是与多家公有云公司互联，应该结合企业自身的技术业务特性来考虑。如果没有商业价值，仅仅是为了满足自己去玩容错和 HA 的目的，花成百上千万资金建个数据中心毫无意义。实际上像 Amazon、Google、Microsoft 这样的互联网企业（微软是成功转型），它们的运维能力都是世界顶级的，你不可能比它们运作地更好（也许你不承认，这是实情）。如果你的企业没有管理数据中心的经验和传统，选择靠谱的公有云厂家是明智之选（不要以为别人停了几个小时接下来就会停几天，停几个月）。2. 要不要连接多家公有云服务商，这里面有很多隐性成本，不仅仅是个申请开通、网络连接的问题，每个云厂家有不同的安全和网络 API，你要把开发调试的工作量算在里面。3. AWS 自身提供了不少容错和 HA 服务，比如跨区复制功能等，你应该考虑在你的公有云方案包中。4. 不要太在乎网上的各种喧闹，故障发生后，有不少企业不能正常工作，但也有企业未雨绸缪，成功避开了故障，明智的企业应该从这次事故中吸收更多的养分，总结提高。

云存储专家 Chris Evans 说这次故障发生在 AWS 的 US-East-1 区域，依赖这个区域的用户服务都受到影响，因为 US-East-1 在 AWS 内部配置中是作为缺省区域，假如用户没有主动选择区域，缺省也会导向这个故障域，所以这就扩大了影响范围。Chris 算了个停机时间的业务帐，AWS 提供的 S3 服务对外宣传的可靠率是4个9（99.99%），也就是停机时间一年不超过一个小时，一个月不超过5分钟，你可以根据自己企业的业务量做个计算，假设一分钟损失1000美金，4个9的服务品质一年最多损失60000美金，假如你做容错和 HA 的成本大大超过这个损失，从经济上看，去做一个技术上的加固工程意义不是太大。如果是金融、航空、电信类的企业，它们是往5个9的方向去努力的，而且停业时间长还会面临信誉损失的问题，那就要考虑容错、灾备、应急演练各种问题。

Chris 建议可采用 StorReduce 方案，避免单区故障或者使用单一云服务商的潜在风险。