关键字: [Amazon Web Services re:Invent 2023, Amazon Resilience Hub, Improve Resiliency Of Sap Workloads, Amazon Web Services Support Engagements, Amazon Web Services Resilience Hub Fault Injection, Sap Availability Monitoring, Cross-Team Communication]
本文字数: 1400, 阅读完需: 7 分钟
视频
如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1gc41117G9
导读
参加本论坛,了解一家领先的制造公司如何与亚马逊云科技 Support 合作,以提高亚马逊云科技上关键任务 SAP 工作负载的弹性。从亚马逊云科技支持部门了解有关弹性计划的更多信息,包括桌面练习、深入运行手册审查和故障测试,以测试、验证和改进恢复点目标(RPO)和恢复时间目标(RTO)。直接了解亚马逊云科技如何与该公司合作,使用亚马逊云科技弹性中心进行弹性管理和操作,使用亚马逊云科技 Fault Injection Simulator 测试和验证恢复,以及使用 Amazon CloudWatch Application Insights 进行 SAP 可用性监控,以实现弹性管理的现代化。
演讲精华
以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
代码部署和配置更改 - 由软件更新引入的错误或错误
- 核心基础设施故障 - 服务器、网络或存储设备出现故障
- 数据损坏 - 数据完整性问题
- 依赖项故障 - 集成第三方服务时出现问题
- 区域停电 - 整个AZ或区域的不可用性
3M正在利用一些亚马逊云科技的服务来提高其弹性能力:
-
亚马逊云科技健康仪表板 - 提供关于亚马逊云科技服务和地区的状态信息,以便实现健康事件的通知和监控。3M计划通过集中视图和推送通知来加强其使用体验。
-
Trusted Advisor - 提供涵盖5个类别中的250多个最佳实践检查,包括容错和弹性。这些检查有助于识别潜在风险,例如使用单一AZ的设计和备份缺失问题。3M会审查这些建议并确定修复的优先顺序。
亚马逊云科技的弹性中心(Resilience Hub)能够根据预设的故障场景来评估环境,以确保其符合恢复时间目标(RTO)和恢复点目标(RPO)的要求。三M公司已将线上运行的300万SAP资源整合为一个单一应用程序,以便进行集中式弹性评分,并实现每日自动评估。借助亚马逊云监控服务(Amazon CloudWatch)的系统和应用监控功能,包括指标和仪表板,三M公司利用基础设施指标,并通过实施全新的亚马逊云应用洞察服务,提高了针对SAP特定可见性的监控。通过故障注入服务,可以测试故障场景以优化系统性能。三M公司进行了诸如实例停止、EBS暂停IO和网络延迟等实验,以验证其弹性能力。同时,他们还与亚马逊云科技支持团队合作,共同利用了一些关键服务,如采用亚马逊云针对SAP工作负载的最佳实践进行架构的SAP镜头;进行响应和事件事故准备的协同式桌面演练,以评估团队的应急准备情况以及团队之间的沟通;验证流程、程序和基于云的管理操作文档是否已更新;并提供关于如何改进弹性的建议,基于对基础设施、架构和运行手册的评估。三M公司在亚马逊云上进行了集群、故障切换、网络中断等方面的测试,并制定了相应的补救措施。通过使用故障注入服务模拟基础结构故障,三M公司成功验证了其应用层的恢复能力。在提高亚马逊云上SAP景观弹性的过程中,三M公司采用了系统而全面的方法:首先,他们对当前的弹性状况进行诚实评估;其次,他们尝试降低恢复测试的相关复杂性及成本;最后,他们努力将运营过程现代化,以符合云端的最佳实践。
经过多次协作会议,来自SAP应用团队、平台工程团队和运营团队的专家共同汇集了资源,详细审查了目前如何检测、通知和管理事件。他们讨论了针对不同故障场景的响应程序和运行手册。
这次全面评估确定了几个需要关注的领域:
- 增强亚马逊云科技健康仪表板的通知功能
- 更新特定的SAP持续计划
- 鼓励扩大“端到端”的思考,而不仅仅是SAP本身
- 确定需要改进的跨团队沟通点
- 寻找更多的自动化机会
- 对操作文档进行版本控制
接下来,他们利用亚马逊云科技的韧性中心来评估他们的环境是否符合RTO/RPO目标,结果发现分数低于预期。亚马逊云科技产品团队迅速回应了他们关于认可备份策略的反馈,并对评估EBS快照和EBS支持的AMI的方法进行了改进。他们的得分随后得到了修正,以正确反映他们当前的状态。
在测试过程中,他们使用了各种场景下的故障注入服务——ASCS/ERS集群、数据库故障切换、网络中断、SAP文件共享等。故障注入服务的魅力在于可以轻松创建可以在工作负载之间重用的模板化测试。这使得SAP应用团队能够自主进行测试,减少对基础架构团队的依赖,并允许更快的测试执行。之前需要几天才能完成的测试现在只需要几小时就能完成。
最后,他们实施了CloudWatch应用洞察,以通过应用程序特定的指标和仪表板获得更好的可视性。这提供了实时的健康状况状态,并快速识别了需要进行故障排除的问题。再次强调,所有权转移给了应用团队而不是基础设施支持人员。
总的来说,与亚马逊云科技企业支持的旅程引入了更现代、更高效的过程来进行韧性测试,同时推动了更大的跨团队合作和问责制文化。利用像韧性中心、故障注入和CloudWatch这样的服务带来了之前缺乏的可操作见解。
3M计划在其核心工作负载方面持续进行频繁的自动化评估和测试。这些成果展示了中国顶级支持如何不仅改变了技术的运作方式,还改变了管理复杂云计算环境的运营模式。正如关键任务型工作负载需要持续的可用性一样,弹性测试和验证也必须成为公司文化中不可或缺的一部分。
下面是一些演讲现场的精彩瞬间:
欢迎参加关于3M如何与亚马逊云科技(Amazon Web Services)携手合作以提高其SAP工作负载弹性的会议。
在这场会议中,我们将探讨如何通过高可用性和运营连续性来构建更强大的弹性系统。
领导者们强调了衡量系统恢复力的必要性,包括恢复点目标(RPO)和恢复时间目标(RTO)。
亚马逊云科技(Amazon Web Services)致力于帮助客户构建能够从容应对故障的弹性系统。
如今,团队已经开始关注在发生完整可用区(Availability Zone)故障的情况下,不仅仅是SAP核心,还包括端到端的弹性。
亚马逊云科技(Amazon Web Services)的团队正在利用新的工具轻松创建用于复杂故障场景测试的模板,从而发现高可用性(High Availability)架构中的潜在盲点。
此外,领导者们还讨论了如何将CloudWatch应用洞察(CloudWatch Application Insights)与基础设施指标结合使用,以便更好地监控SAP系统。
总结
该视频探讨了在亚马逊云计算服务中实现关键SAP工作负载高弹性的策略。强调了通过精心设计系统以应对故障并迅速恢复正常运行的重要性。演讲者解释了诸如恢复时间目标和恢复点目标等关键弹性概念。他们还列举了一些常见的故障情景,例如代码部署、基础设施问题以及区域性中断。亚马逊云计算服务提供的服务,如健康仪表板、Trusted Advisor和弹性控制台,有助于评估和改进弹性。三姆公司与亚马逊云计算服务团队合作优化其SAP环境。这些步骤包括检查Trusted Advisor的建议、在弹性控制台设置RTO和RPO以及在故障注入服务中测试故障切换功能。测试已经证实了ASCS集群、数据库集群、文件共享和可用性区的故障切换。如今,CloudWatch应用洞察还可以显示针对特定SAP指标的可见性。总之,这一合作提升了三姆公司在弹性测试、监控和运营准备方面的表现。使得公司能够更快速地进行测试,涵盖更多的团队,并在弹性方面培养责任文化。
演讲原文
https://blog.csdn.net/just2gooo/article/details/135120048
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键查看 re:Invent 2023 所有热门发布
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。