关键字: [Amazon Web Services re:Invent 2023, Amazon Systems Manager, Operating Model 亚马逊云科技, Amazon Web Services Account Strategy, Amazon Web Services Control Tower Governance, Automation With Amazon Systems Manager, Feature Flags For Resilience]
本文字数: 1500, 阅读完需: 8 分钟
视频
如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1uc411i7Mm
导读
在云端运营可以使 IT 团队能够专注于业务成果并加速创新。在本讲座中,学习如何以安全、自动化、可靠和具有成本效益的方式构建、管理和运营关键任务的应用程序。探索建立多账户环境、自动化运营和应用程序管理的最佳实践。此外,了解如何克服运营挑战,实现高效管理,并增强工作负载的弹性。
演讲精华
以下是小编为您整理的本次演讲的精华,共1200字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
会议伊始,亚马逊云科技AppConfig的总经理Steve Rice欢迎与会者的到来,并邀请他们聆听主题为"在亚马逊云科技上运营的最佳实践"的演讲。他表示,这一为期一小时的讲座将为观众们提供实用的最佳实践和洞察,使他们能够将这些知识带回到自己的团队并在下周付诸实践。
Steve接着介绍了另外两位演讲者——亚马逊云科技的企业解决方案架构师Guillaume Greco和波士顿咨询公司(BCG)的云平台负责人Chuck Mora。他强调了许多客户在云计算之旅开始时,通常会先将单个工作负载或应用程序迁移到专门的亚马逊云科技账户中,然后随着业务的不断发展,逐步增加更多的负载并创建新的账户以实现资源的隔离。随着时间的推移,整个组织的开发人员会自然地开始在多个账户中启动项目,从而形成一个相互连接的账户和工作负载的复杂网络。然而,当高层管理人员要求查看所有资源如何组合在一起的图表时,如果缺乏对其结构的了解,那么这些图表可能会显得杂乱无章。Steve将其比作一个未经规划的城市,其中的建筑物无序地堆叠在一起,但最终还是能够实现稳定且有序的发展。同样地,企业需要在扩展其云计算架构时遵循有目的的方法,以确保在高流量情况下保持稳定运行。
Steve随后概括了他们将要探讨的三个主要主题:建立云计算基础、规模化运营以及来自真实世界客户Itaú的见解。
在前期阶段,明确的运营模式可以是集中式、分散式或分布式。其中,集中式将基础设施和平台与应用程序团队分开;分散式使应用团队能够拥有端到端的完整栈;分布式则在集中式平台团队和分散式应用团队之间共享责任。在运营模型与账户策略保持一致的过程中,需要考虑每个应用程序一个账户适合分散式团队,而共享账户避免传统集中式团队的碎片化。同时,要避免在每个环境中设置过多或过少的账户。最后,集中治理并分配控制,例如使用亚马逊云科技的Control Tower服务,允许合规账户在应用自动化控制护栏的情况下启动。为了展示这些最佳实践,Guillaume使用亚马逊云科技的Control Tower进行了现场演示。他为一个分散式的开发团队启用了S3访问,但同时也配置了一个限制未加密S3存储桶的控制。当开发团队尝试通过CloudFormation创建未加密的存储桶时,控制塔的安全护栏会自动阻止它。这展示了如何在集中控制的同时仍然赋予开发者自主权。在规模运营方面,Steve Rice再次上台讨论在亚马逊云上规模运营的关键要素。他解释道,亚马逊云科技会问自己四个关键问题:1. 我们如何识别并解决运营痛点?把它们当作产品积压处理。2. 我们如何扩大容量50-100%?自动化重复任务。3. 我们在哪里有重复的手动流程?把它们自动化。 4. 如何提高恢复能力?使用标志等功能。为了识别运营痛点,Steve建议定期进行操作就绪审查。这个审查会询问安全、可用性、恢复等方面的关键问题以揭示差距。发现这些差距使得组织可以优先处理并系统地解决它们,而不是让技术债务持续累积。一旦找到痛点,Steve强调了自动化重复任务和流程的重要性。这可能包括运行手册、部署、服务器构建等。他的目标是自动化90%的任务,以便员工可以从事更有影响力的工作。
最终,提高灵活性被视为大规模运营的关键领域。Steve主张运用功能标志(切换)来调整应用程序的行为,而不需要进行新的部署。例如,通过启用将流量路由到新服务器、打开调试或激活实验性功能等功能标志,使得组织能够快速应对问题并测试新功能,而无需承担部署风险。为了展示自动化运行记录和使用功能标志的方法,Steve在现场演示了在亚马逊云科技Systems Manager上的操作。他展示了如何使用OpsCenter提供可视化工作流来更快速地构建运行记录。同时,他也演示了AppConfig如何使用功能标志逐步部署配置更改,以防止生产问题。
来自Itaú的实际案例
接着,Itaú的Thiago Coelho上台分享了他们基于亚马逊云科技最佳实践进行云计算之旅的经验。Itaú是一家有着100年历史的巴西银行,为消费者和企业提供全面的金融服务。2017年,当公共云尚未被允许用于金融数据时,Itaú开始采用私有云进行准备。2019年,法规发生变化,Itaú能够开始战略性地向公共云转移。Thiago强调,迁移到云端需要改变团队的运作方式,而不仅仅是采用新技术。
Itaú与亚马逊云科技紧密合作,共同定义他们的云运营模式和账户策略。他们专注于团队的重培训,获得了超过55,000个云认证。通过改进运营,Itaú的生产事故减少了98%,从2018年到2022年的部署增加了13,013倍。他们已经将50%的主机负载现代化到了云端。
起初,Itaú有着传统的集中式运营,应用和基础设施团队各自为政。如今他们已经转向支持去中心化的devops团队拥有整个栈。尽管执行是分散的,但Itaú仍然保持集中的治理和控制。
对于账户结构,Itaú使用亚马逊云科技Organizations,账户与软件开发生命周期(开发、测试、生产)相对应。亚马逊云科技Control Tower可以自动配备具有控制功能的合规账户。
根据所定义的云计算运营模型以及相应的账户策略进行相应调整,实现集中管理和分配控制以增强自主性。找出并解决操作过程中的难点,通过自动化重复任务来提高效率。运用标志等功能迅速提升恢复能力。精心构建和组织账户结构,充分利用组织功能。将控制与数据平面分开,并通过自动化来实现规模化。持续培训团队并更新运营模式。
通过遵循亚马逊云科技建立的关于强化基础、拓展运营及利用自动化的最佳实践,企业能够顺利迁移至云端并充分发挥创新潜能。
下面是一些演讲现场的精彩瞬间:
史蒂夫·赖斯(Steve Rice)担任亚马逊云科技AppConfig的总经理,他与亚马逊云科技的企业解决方案架构师吉约姆·格雷科(Guillame Greco)以及B Great的云平台负责人查克·莫拉(Chuck Mora)共同参与了活动。
他描述了客户如何自然而然地构建出复杂的亚马逊云科技架构,这些架构看似杂乱无章,实则稳定且设计精良。
他将亚马逊云科技账户比喻成建筑中的公寓,并通过解释如何使用亚马逊云科技组织来管理多个如同集中式房东般的账户来进行进一步阐述。
领导者会定期优先考虑和处理运营痛点,以确保平稳运行并支持新功能的发展。
通过使用清单模板进行定期的运营审查,可以识别运营痛点和改进领域,并将其纳入组织文化中。
亚马逊云科技基础团队利用自动化的着陆区和管道来实现可扩展性和安全性,以便在配置账户和实施防护栏时能够顺利进行。
总结
亚马逊云科技在re:Invent上进行了一场关于如何在大规模运营工作负载方面运用最佳实践的演讲。演讲者强调,客户通常从几个工作负载开始,但随着时间的推移,他们会发现自己的环境已经复杂地有机增长。他们提出了一种构建稳定云计算基础的方法。首先,根据组织需求界定一种运营模式,例如集中式、分散式或分布式DevOps。然后,制定一种将账户与运营模型对应并利用亚马逊云科技组织的多账户策略。最后,使用亚马逊云科技控制塔进行集中管理和分配控制。
演讲者接着探讨了如何通过简化操作来实现规模化。将痛点作为待办事项进行处理并实施系统性自动化以提高效率。借助诸如亚马逊云科技系统管理器和应用程序功能标志之类的工具可以增强弹性。运行就绪审查有助于健康检查。
ITAÚ分享了采用这些最佳实践的经验。从小规模开始,它定义了一个云运营模型和多账户策略。通过使用亚马逊云科技单一签名集中身份,实现了分散执行。自动化账户创建促进了规模的扩张。将工作负载划分为控制和数据平面增强了稳定性。
此次会议为应对增长和弹性方面的云操作架构提供实用建议。企业必须建立一个坚实的基础,并在扩展工作负载时持续简化操作流程。
演讲原文
https://blog.csdn.net/just2gooo/article/details/134814122
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。