COP209 | 一切尽在自动化:抉择与最佳实践
关键字: [Amazon Web Services re:Invent 2023, Amazon Control Tower, Automation, Cloud Operations, Amazon Web Services Services, Control Tower, Systems Manager]
本文字数: 2800, 阅读完需: 14 分钟
视频
导读
变化是恒定不变的。正如许多亚马逊云科技客户过去几年中所经历的全球大流行病和大辞职潮一样,最能适应环境的组织得以存活下来,一些组织甚至茁壮成长。迁移到云端已经成为适应意外变化的一个关键因素。在本次分享中,可了解亚马逊云科技运营服务如何实现从账户创建到应用和资源运营的自动化。发现投资于安全、身份、运营、管理和连接亚马逊云科技服务网络的好处。
演讲精华
以下是小编为您整理的本次演讲的精华,共2500字,阅读时间大约是12分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
该视频首先介绍了三位演讲者——来自新泽西州的首席解决方案架构师Aaron Wadhwa、来自墨尔本的澳大利亚的首席解决方案架构师Emily Arnao以及Sunlife的云计算工程总监Ashish Wwa。
Aaron首先通过介绍议程,解释了他们将首先回顾过去的一个例子,说明自动化的重要性。接着,他们会研究在实施亚马逊云科技自动化服务之前和之后的云管理员的一天。随后,Sunlife的Ashish将分享他们公司实际经历的云计算自动化之旅。最后,Aaron和Emily将对整个演讲的关键收获进行总结。
为了说明自动化为什么重要,Aaron带我们回到汽车行业的早期。他解释说,尽管汽车的发明确实改变了世界,但早期,车辆是只有富人才能负担得起的奢侈品。亨利·福特有一个愿景,就是要让汽车成为普通家庭都能买得起的产品。在一次参观芝加哥肉类包装厂的过程中,福特观察到了高效的装配线系统,肉类沿着传送带移动。这给了他一个想法,就是在汽车制造中实施类似的流水线工作方式。
通过使用流水线生产和实施自动化,福特成功地大幅降低了成本。Model T的价格从1908年的850美元降到了1924年的260美元。这使得汽车变得大多数美国家庭都能负担得起,实现了福特的目标。这些自动化技术还使福特在汽车行业进入艰难的大萧条时期时具有竞争优势。据估计,1919年有2,000家美国汽车制造商,但到1929年只剩下大约50家。到1940年,只有三家公司——福特、通用汽车和克莱斯勒——占据了90%的美国汽车销量。这些领先的汽车制造商都采用了装配线和自动化技术,这使他们能够在经济挑战中茁壮成长。
对于工人来说,变化主要是积极的。福特的员工数量从1914年的14,000人增长到1929年的52,000人。工资也从每天大约2.50美元翻倍到了每天5美元。所以,自动化彻底改变了整个汽车行业,帮助公司在困难时期度过难关,并改变了员工的职业道路。
艾伦认为,我们可以从这个例子中汲取经验教训。早期汽车制造商通过自动化改变了整个行业,如今IT专业人士同样有潜力应用自动化技术。虽然IT行业在自动化方面领先于其他领域,但仍有很多手动流程需要改进。艾伦引用的一些数据显示,94%的知识工作者每天都在处理部分重复性任务,而80%的开发人员更专注于运营和维护而非创新。例如,一位客户表示,他们必须手动检查每个亚马逊云科技账户,而在谈到自动化策略时,他们并没有任何策略。
在当前充满挑战的环境中,如疫情、大辞职和经济衰退等现象,正是评估自动化如何积极影响组织和职业生涯的好时机。那些具备丰富自动化经验的优秀员工已经取得了显著成果,例如将变更失败率降低3倍,将部署时间缩短至1小时,实现事故快速恢复,所有操作可视化,自动部署以及快速回滚故障更改。这些能力使得员工能够在保持工作与生活平衡的同时,无需牺牲周末时间来解决问题。自动化带来的好处是显而易见的——加速创新进程并减轻员工疲劳。艾伦鼓励观众们思考一下,今天的自动化在他们自己的组织中可能会产生怎样的影响。
埃米莉补充道,云API和服务已经帮助各种规模和组织类型的团队实现了复杂的自动化。她回顾了过去的情况,那时进行一次生产变更需要数月的时间规划,依赖脆弱的自制脚本,缺乏环境性能可视性和洞察力,变更协调需要与利益相关者进行漫长的电话会议,而当出现问题时,员工可能需要牺牲周末时间来解决问题。相比之下,云现在让变更规划、执行和重复变得更加容易。基于代码的基础设施使工程师能够调配可扩展的云资源。然而,自动化不应该只关注基础设施——还有很多其他手动流程有待优化。
艾米丽注意到,尽管云计算已经普及,但一些用户仍在沿用大量的传统IT流程和手动操作。尽管有些人可能更倾向于手动控制,但由于人才短缺,组织现在应尽可能实现自动化,不论规模或工作负载的复杂性如何。将手工工作转化为自动化方案意味着可以腾出更多时间进行其他改进。全面自动化对于公司在未来保持竞争力至关重要。
为了证明这些观点,艾米丽通过一个虚构的例子进行了阐述:玛丽·梅杰领导着一个团队,负责在公司内部创建和管理亚马逊云科技账户以及制定云标准。他们使用亚马逊云科技来支持公司的网站、客户关系管理、分析、机器学习等工作负载,涵盖了多个账户和区域。尽管他们已经实施了一些基础设施即代码,但许多流程仍然是手动的。
让我们来看看玛丽的紧张的一周:
周一,玛丽的团队收到了一个请求,要求创建两个新的账户以隔离某些工作负载。完成这些请求需要手动配置控制、日志记录、监控、策略和其他繁琐的步骤。
周二,在设置新账户时,一名工程师不得不手动在所有账户上运行合规性报告。他忘记了包括新账户,所以必须重新运行整个报告。这暴露了被忽视的安全控制,可能产生了潜在的恶意访问。工程师不得不加班来解决这个问题。
周三,玛丽的团队不得不催促一个工作负载团队按照正常时间表更新他们的EC2实例操作系统补丁。由于其他优先事项,工作负载团队落后了。为了避免自己加班,玛丽的团队催促工作负载团队优先处理补丁。
周四,另一个团队请求对一套商用工作负载进行软件更新,这需要玛丽的团队为需要进行远程访问的环境提供远程登录访问。他们为所有需要远程访问的团队维护EC2上的堡垒主机,这也增加了保持主机补丁的成本。
周五,新的扩展请求到来——要将治理扩展到新的地区,并纳入新收购公司拥有的现有亚马逊云科技账户。由于所有的手动流程,玛丽不相信她的团队能够在没有延迟的情况下处理扩展。她要求有时间进行估计。
将所有内容编码化,以便完全可见
-
端到端自动化部署
-
支持快速回滚错误更改
-
自动化对运营事件的响应
在亚伦的建议下,玛丽再次审视了她的挑战周,并尝试引入了一些亚马逊云科技的自动化服务。
首先,在周一,玛丽的团队利用亚马逊云科技的控制塔(Control Tower)通过账户工厂功能从预定义的蓝图中创建了合规账户。这个内置的自动化过程根据设置配置了IAM、VPC、安全组等。这使得企业能够根据需求自主创建账户,而无需玛丽团队的介入。
其次,在周二,控制塔在所有账户中自动启用了亚马逊云科技的配置和CloudTrail以进行治理。玛丽还进一步启用了Security Hub和GuardDuty的自动威胁检测和响应功能。这样,安全团队就可以直接访问Security Hub中的审计账户,以监控合规性,而无需玛丽的人工报告。
最后,在周三,玛丽的团队使用了亚马逊云科技的系统管理员自动化来协调所有EC2实例的操作系统更新。这样,他们不再需要维护自己的补丁基础设施。系统管理员每周扫描一次补丁基准,并在安排的周六维护窗口内修复不符合要求的实例。任何补丁故障都会被自动记录并在Security Hub中显示。玛丽的团队可以导出这些自动合规报告并将其发送给管理层。
在周四,Mary的团队使用了系统管理器会话管理器来替代堡垒主机,以实现安全的SSH和RDP访问,从而提高安全性。通过会话管理器,Mary还可以实施策略来限制命令并将所有活动记录到S3桶中。运行手册帮助工作负载团队在自动化快照后自助服务软件更新。
到了周五,由于所有的自动化都已就绪,Mary的团队可以自信地说他们可以立即满足扩张请求,而不会产生延迟。他们利用省下来的时间评估进一步的改进,如系统管理器事件和变更管理、用于消除密码共享的秘密管理器以及教育其他团队如何使用亚马逊云科技API和自动化。
不再是加班到深夜来跟上进度,自动化让玛丽的团队有了健康的工作生活平衡。这体现了亚马逊云科技架构良好框架的运营卓越支柱,该支柱建议投入时间来持续改进运营。
下一个演讲者是来自阳光人寿的阿希什·瓦瓦,他将介绍他们的实际自动化历程。阳光人寿在全球范围内提供保险和资产管理。其首席信息官强制推行“云优先”战略,以支持创新和数字领导。然而,为他们高度监管的全球业务实施云带来了挑战。
他们最初的共享账户模式导致了依赖性问题。他们转向了工作负载账户,给了开发人员更多的自主权,而没有基础设施阻塞的依赖关系。工作负载账户还通过链接到成本中心提高了成本可见性。
接下来是解决一致的全球环境问题。以前的手动过程会导致配置问题和违规。在2022年,亚马逊云科技控制塔自动创建了具有内置安全护栏的全局账户,提供了关键的统一性,而不需要区域管理员团队。
开发者现在可以使用CloudFormation模板和Terraform模块来自我部署合规的资源。通过API的云自动化使团队能够扩展平台,而不是云团队。控制塔在支持全局治理、安全和开发者生产力方面非常有价值。
艾米丽总结了关键收获:
- 对于多账户管理,使用亚马逊云科技控制塔来自动执行安全和合规
- 评估亚马逊云科技系统管理器以消除手动操作任务
- 利用安全枢纽和安全警卫队在所有账户中提高安全合规可见性
- 采用秘密管理器来消除手动凭证管理
自动化是推动组织在云端实现高效发展及规模扩大的关键因素。演讲者鼓励与会者通过进行调查来提供反馈,并参观云计算操作展示区以获取更多相关问题解答。演讲中列举了一些重要的统计数据和数据点,以阐明全面自动化的重大意义。例如,1919年约有2000家美国汽车公司,然而到了1940年,仅剩下福特、通用和克莱斯勒这三家主要公司,它们占据了1940年美国汽车市场的90%份额。此外,福特公司的员工数量从1914年的14,000人增长至1929年的52,000人。演讲者还强调了采用自动化所带来的优势,如精英表演者的变更失败率降低三倍,他们在少于一小时内将代码部署到生产环境,并在少于一小时内从故障中恢复。亚马逊云科技在三年内的云计算运营模式实现了241%的投资回报,员工生产力提高了62%,同时碳足迹减少了88%。这些数据表明了早期汽车制造商以及现代IT组织通过实施自动化所获得的巨大益处。通过规范化流程、提高透明度和支持自助服务,团队可以减少手动工作,从而专注于提供更高级别的商业价值。演讲者通过真实事例和具体指标提出了一个令人信服的论据。自动化对于应对变革、支持创新和预防员工倦怠至关重要。每个IT团队都应开始评估自动化在其自身运营中所产生的潜在影响,并最终改变整个组织。
下面是一些演讲现场的精彩瞬间:
亚马逊云科技致力于在全公司范围内树立一种安全、透明且自动化的工作氛围。
玛丽利用了亚马逊云科技提供的服务,如服务目录、EC2和运行命令等,使得业务部门能够轻松地配置和管理他们的基础设施。
领导层探讨了在诸如太阳人寿等高监管要求的金融机构中实施云计算基础设施所面临的挑战,因为在这个环境中,强大的数据治理和控制至关重要。
控制塔通过自动化管道确保了所有账户的一致性和合规性。
亚马逊云科技提供了多种服务,以帮助优化基础设施、提高透明度并实现操作的自动化,从而使员工能够在工作中不断成长,同时也能充分享受生活。
领导层鼓励观众通过参与调查会议和参观云操作信息亭等方式提供反馈。
总结
亚马逊云科技(Amazon Web Services)和re:Invent(Amazon Summit)是主要的云计算盛会,业界领袖在这里分享关于自动化IT运营的见解。在一次深入的讨论中,演讲者探讨了汽车行业采用生产线是如何彻底改变制造业的例子。同样地,现今优秀的IT绩效者通过广泛的应用自动化技术,以更快的速度进行部署、降低故障风险并提高工作与生活的平衡。
演讲者描述了一个云平台团队典型的一周,他们依赖于手动操作流程。这个团队努力快速分配资源,保持安全合规性,并保持基础设施的更新。他们使用手动清单的方法导致了延迟,并在周末需要紧急处理。
接着,演讲者展示了中国如何利用亚马逊云科技的服务简化这些场景。亚马逊云科技的控制塔可以自动化合规账户的设置。亚马逊云科技的配置持续检查功能,以及亚马逊云科技的系统管理员自动修补实例的功能。这些功能取代了手动操作,使得亚马逊云科技会话管理器能够授权安全的远程访问权限。
通过自动化,团队可以专注于创新和对新的业务需求说“是”。就像福特汽车公司的生产线提高了生产力和员工收入一样,云计算自动化使得IT团队和企业受益。演讲者建议从小规模开始,但不断优化和改进整个过程。一个良好的架构框架可以提供指导。
来自太阳生命保险公司的IT领导阿什什(Ashish)分享了他们成功地将业务迁移到自动化云账户的经验。开发人员获得了更多的自主权,同时云平台的工程师确保了工作的连续性。控制塔的安全防护支持在全球范围内实现合规账户。自动化帮助太阳生命保险公司扩展了平台,而非仅仅扩展团队。这些案例表明了自动化在安全性能、合规性、生产效率和创新能力方面带来的优势。
演讲原文
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。