Fidelity:在亚马逊云上运行零级交易数据库
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Mission-Critical Workloads, Incident Detection, Response Plans, Observability Metrics, Resilience Evaluation]
导读
了解Fidelity Investments如何在亚马逊云科技上运营Tier 0级别的经纪数据库,并为其用户确保高可用性系统。本次会议涵盖了在亚马逊云科技上运营低延迟、多区域数据库的一些挑战,并重点介绍了Fidelity通过亚马逊云科技事件检测和响应的主动机制。事件检测和响应为客户提供主动参与和事件管理,以减少故障的可能性,并加快关键工作负载从中断中恢复的速度。
演讲精华
以下是小编为您整理的本次演讲的精华。
在金融服务不断演进的领域中,每一秒的决策都可能决定财富的命运。因此,能够以坚不可摧的弹性运行关键任务应用程序至关重要。这正是领先的投资管理公司富达投资公司(Fidelity Investments)在与亚马逊云科技开启云端之旅时所面临的挑战。富达拥有5150万客户账户和28,000名员工,其核心业务包括实时股票和债券交易、在线银行、支付处理和保险理赔处理。这些系统的任何中断都可能对公司和数百万将财务未来托付给富达专业知识的客户产生深远影响。
亚马逊云科技企业支持和技术账户管理总监Stephen Clark强调了这些0级应用程序的关键性。“当我们谈论0级工作负载时,我们谈论的是具有最低恢复点目标、恢复时间目标的工作负载类型,这种工作负载一旦中断,可能会涉及很多人,您的业务也将面临风险。”
亚马逊云科技意识到客户在快速检测、识别和解决这些关键应用程序问题方面面临的挑战,因此两年前推出了事件检测和响应(IDR)服务。这项创新服务旨在利用先进的可观测性、预定义的运行手册以及快速调用亚马逊云科技专家,将停机时间从数小时缩短到几分钟,甚至完全消除。IDR通过定义和关联应用程序、业务影响和底层亚马逊云科技服务(如Amazon CloudWatch和Amazon X-Ray)之间的指标来改善可观测性。它通过提供预定义的运行手册并在5分钟内调用亚马逊云科技专家(即使没有客户警报),为事件提供单线程所有权,从而实现快速解决。
富达投资公司数据库平台工程副总裁Menoj Kumar上台时,生动描绘了公司以客户为中心的文化以及对实现财务成功和促进员工成长的坚定承诺。富达的云端之旅是一场精心编排的努力,着重于开源和云端不可知论的技术堆栈。面对6000个数据库需要迁移,公司意识到需要一个健壮且弹性的架构来承受关键任务工作负载的严峻考验。
Menoj深入探讨了弹性的细节,解释了恢复时间目标(RTO)、恢复点目标(RPO)和可用性的概念——这三个圣杯定义了应用程序的层级评级。他向观众介绍了富达实施的各种模式,从主被动到主主,再到前沿的全球主主模式。对于主主模式,富达使用了在两个区域部署的Amazon Elastic Compute Cloud (EC2)实例、运行Kubernetes的应用程序服务器集群、负载均衡器,以及每个区域中的主数据库和用于故障转移的辅助数据库,所有这些都通过多路复制保持同步。
对于他们的0级交易数据库,富达选择在三个亚马逊云科技区域之间部署分布式关系数据库模型,复制因子为5。这种建立在强一致性和同步复制原则之上的架构,确保了零数据丢失(RPO=0)和节点或区域故障时的近乎即时故障转移。Menoj解释道:“这自动为我们提供了所需的数据保护。如果节点1发生任何影响,由于同步复制,数据都是有保证的。”该部署由跨三个区域的27个节点集群组成,主区域有两个副本,辅助区域有两个副本,第三个“见证”区域有一个副本以维持仲裁。
然而,弹性不仅仅是架构问题,更是深植于富达DNA中的一种思维方式。Menoj强调了通过故障模式和影响分析(FMEA)和亚马逊云科技故障注入模拟器(一种允许向亚马逊云科技工作负载注入各种故障模式的服务)主动测试故障场景的重要性。“我们在计算、存储、内存压力等方面运行所有场景,我们所做的一切都是为了了解数据库会发生什么?它会故障转移吗?如果数据库发生故障转移,应用程序会如何处理?需要多长时间?”他详细阐述道。
尽管系统内置了弹性,但富达仍然面临在事故期间快速调动合适的亚马逊云科技支持团队的挑战。这促使他们采用了IDR服务,该服务基于从富达的监控系统(如Amazon CloudWatch)和与Amazon EventBridge集成的第三方APM工具接收的警报,为亚马逊云科技检测和响应事件提供了合同义务。
亚马逊云科技首席技术账户经理Shazat Sharma向观众介绍了一个之前需要9小时来完成事故分类的过程,其中涉及多个利益相关方和亚马逊云科技团队。在这一事故中,富达在东部时间12:25 PM注意到应用程序层面的错误,通过将流量从主区域路由开来在一个数据点内缓解了业务影响,但在第二天市场开盘前仍需要了解根本原因。尽管在1:35 PM就已经调用了亚马逊云科技支持,但总的分类时间仍长达9小时,涉及富达50名利益相关方和多个亚马逊云科技计算、网络和存储领域的团队。“即使没有业务影响,我们也希望确保第二天做好准备,对吗?如果我们看一下一些我们认为可以帮助的关键观察结果或数据指标的总结:调用亚马逊云科技支持的时间:在这种情况下是70分钟。识别受影响的亚马逊云科技资源的时间:通过联合协作,分类耗时5小时。总分类时间:9小时,”Shazat回忆道。
有了IDR,这一艰巨的过程得以简化,分类时间缩短至仅1小时10分钟。Shazat介绍了一起事故,富达的警报在东部时间3:33 AM响起,凭借IDR的自动触发器,调用亚马逊云科技支持的时间缩短至仅1分钟。识别受影响的亚马逊云科技资源的时间为42分钟,总分类时间为1小时10分钟,使富达能够为早盘交易时间做好准备。“所以我们在东部时间4:59 AM就完成了,富达可以回去继续他们当天剩余的计划,即处理客户提交的交易,”Shazat解释道。
IDR的功能不仅限于事故响应,还通过健康通知提前警告可能影响富达工作负载的亚马逊云科技事件。这种主动方式使公司能够迅速评估情况并执行故障转移或灾难恢复计划,最大限度地减少对客户的中断。此外,IDR还通过事后审查促进了持续改进,亚马逊云科技和富达在此过程中合作,确定优化领域并增强弹性态势。
亚马逊云科技与富达的合作关系彰显了协作与对卓越的共同追求的力量。Shazat强调了双方在使用亚马逊云科技网络管理器和基础设施性能管理指标等服务提高可观测性、统一响应计划以及提供弹性指导方面的共同努力,旨在确保富达在亚马逊云科技平台上的长期成功。
随着金融世界以前所未有的速度不断演进,以坚不可摧的弹性运行关键任务应用程序已成为竞争优势。富达与亚马逊云科技及IDR服务的合作之路为组织提供了一个蓝图,帮助他们在云端应对复杂性的同时,保持最高水平的可用性、数据完整性和客户满意度。
用Menoj Kumar的话来说,“我们希望确保任何来到富达平台的客户,无论您交易一只股票、10只股票还是100万只机构股票,都能获得同样的体验。”有了亚马逊云科技 IDR作为值得信赖的盟友,富达向实现这一愿景迈出了重大一步,确保了他们在亚马逊云科技上运行的0级交易数据库的坚不可摧的弹性,从而保障了客户的财务未来。
下面是一些演讲现场的精彩瞬间:
本文阐述了高可用性和灾难恢复的主动-主动和全局主动-主动模式,重点介绍了它们的优势和潜在的数据丢失风险。
一个跨多个区域的主动-主动数据库架构的可视化表示,其中包括主数据库和辅助数据库,通过复制来确保高可用性和数据同步。
亚马逊的云原生关系型解决方案部署在3个区域,采用Raft共识协议,确保对关键任务工作负载实现零数据丢失和实时故障转移。
在富达公司,我们在3个区域部署了27节点分布式数据库,复制因子为5,确保数据冗余和对节点故障和区域中断的弹性。
亚马逊云科技支持团队主动监控关键警报并执行响应计划,以最大程度减少对客户工作负载的影响。
演讲者对富达公司的合作伙伴关系表示感谢,共同构建了一个优化事件管理流程、提高响应和解决时间的解决方案。
总结
在这个引人入胜的叙述中,我们深入探讨了富达投资公司在亚马逊云科技上运行其关键交易数据库的非凡历程。故事从亚马逊云科技企业支持总监Stephen Clark介绍企业确保零层应用程序的弹性和最小化停机时间所面临的挑战开始。然后,他邀请了富达数据库平台工程副总裁Menoj Kumar来分享他们创新的方法。
Menoj首先提供了富达以客户为中心的文化理念和云迁移历程的见解。接着,他深入阐述了他们的主动-主动和全球主动-主动数据库架构的复杂细节,旨在满足严格的恢复时间和恢复点目标。富达对客户满意度的坚定承诺推动他们追求近乎零数据损失和实时故障转移能力。
叙述随后转向亚马逊云科技首席技术客户经理Shazat Sharma,他回顾了一个关键事件,促使亚马逊云科技与富达开展合作。他强调了事件分级过程中面临的挑战,以及随后开发的亚马逊云科技事件检测和响应(IDR)服务。IDR通过接收客户警报、提供早期预警信号并通过定制运行手册和专家访问实现更快解决,从而简化了事件管理流程。
Shazat阐释了通过IDR实现的事件响应时间显著改善,将与亚马逊云科技支持团队接触的时间从70分钟缩短到仅1分钟。叙述最后呼吁与会者探索IDR服务和富达的创新解决方案,同时强调持续优化事件管理流程的合作。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。