CMP223-L | 亚马逊云科技 re:Invent 2022 - 云计算创新助力任何应用程序上云

CMP223-L | 亚马逊云科技 re:Invent 2022 - 云计算创新助力任何应用程序上云

关键字: [Amazon Web Services re:Invent 2023, Amazon EC2, Compute, Performance, Cost, 亚马逊云科技, Instance]

本文字数: 3300, 阅读完需: 16 分钟

视频

导读

亚马逊云科技提供最广泛的功能集,并在基础设施和服务方面不断创新,以便您可以在云端、本地和边缘构建、运行和扩展应用程序。请加入亚马逊云科技弹性计算云(EC2)产品副总裁 Dave Brown,了解亚马逊云科技正在为数百万组织提供的创新。Dave 将讨论亚马逊云科技如何开发定制的云优化硅,以及您如何利用亚马逊云科技计算创新,包括处理器、机器学习芯片和高性能存储产品。

演讲精华

以下是小编为您整理的本次演讲的精华,共3000字,阅读时间大约是15分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

戴夫·布朗,亚马逊EC2的副总裁,欢迎2022年计算领导力会议上的15,000多名热情洋溢的与会者。他回忆起大约15年前,当他第一次加入南非开普敦的EC2团队时,只有14个人在研究这个项目,他们根本不知道他们在建造什么。这个服务于2006年正式推出,起初野心并不大——第一个EC2实例类型甚至没有名字,大约一年后被称为m1.small。它只是将当时他们拥有的服务器分成四个虚拟切片,为所有未来类型都将构建的云计算实例设定了标准。

转眼间到了今天,EC2客户现在每天启动超过1亿个实例,而2008年11月仅运行两年后,总数仅为100万。自2006年以来,EC2已经启动了300亿个实例,从简单的开始,但充满了希望和动力,以使客户能够在云中可靠地运行任何工作负载。推动团队当年的创新精神和客户至上的精神仍然驱动着十年后的EC2每年都有改进。

EC2的一个关键目标是为客户提供允许他们将任何想要带到云的工作负载运行得比他们自己内部的专用数据中心更好的工具和服务。第二个目标是持续专注于提高性能的同时降低成本。回顾过去几年推出的新功能和实例类型的历程表明,这种精神已为客户带来了巨大的价值。

使用EC2来大规模扩展业务的大型客户之一是Epic Games,他们是全球最受欢迎的在线视频游戏《堡垒之夜》的开发者。《堡垒之夜》可以同时有1亿多玩家在线,这需要在各个地区平稳运行所需的巨大基础设施。借助亚马逊云科技和EC2,Epic能够轻松上下调整以支持他们的业务需求。有时他们需要在短短一夜之内将容量扩大数十万甚至数百万个实例!EC2的各种实例类型以及亚马逊云科技的无可匹敌的可扩展性和可靠性对于Epic来说,在如此庞大的规模上低成本运营其业务至关重要。

亚马逊云计算服务(Amazon Web Services)的创始团队一直致力于为客户提供高质量的服务。在2006年,EC2(Elastic Compute Cloud)最初使用了Xen开源虚拟化系统来管理实例。然而,尽管Xen能够满足许多基本工作负载的需求,但客户逐渐遇到了性能波动、延迟高峰和异常问题,特别是在需要持续超低延迟的工作负载方面。亚马逊团队意识到,他们需要重新设计EC2基础设施底层架构来解决这些问题。

亚马逊云科技的执行董事詹姆斯·汉密尔顿提出了一项创新性的方案:将CPU上运行的许多资源密集型功能转移到定制硬件以释放周期。2009年,他在西雅图的一家当地餐厅与正在研究亚马逊云科技Graviton基于ARM的处理器的Annapurna Labs团队的纳法·贝沙拉进行了会面。他们共同构思了最初的Project Nitro计划——将所有超线程、网络、存储和安全功能卸载到专用的Nitro卡上,这些卡由安纳普尔纳的节能ARM芯片驱动。

2013年,第一款仅具有网络卸载功能的实验性Nitro卡问世。到了2017年,EC2推出了第一款完全支持Nitro的实例,所有功能都被卸载。如今,全球EC2车队中已经部署了超过2000万张Nitro卡,为显著性能提高和效率提升做出了贡献。至今,Nitro仍然是亚马逊云科技的一个竞争优势——没有其他主要云提供商有类似的解决方案。

Nitro卡处理几乎所有的超线程、网络、存储、安全以及I/O功能,因此客户在CPU上运行的工作负载不会受到资源争用的干扰或减缓。这种独特的“无噪音邻居”方法带来了几个好处:由于较低的延迟和波动而改进的性能,由于隔离而增强的安全性,以及由于提供资源的更高利用率而降低的成本。基准测试显示,由于Nitro的卸载功能,其他主要云提供商在Redis等数据库上的性能提高了27%。

近年来,EC2实例在网络带宽方面取得了显著的进步。最初,网络带宽仅为1吉比特每秒,但到2019年已增长至25吉比特每秒。如今,搭载了英特尔Ice Lake、AMD Milan和亚马逊云科技Graviton3处理器的新一代实例,每个实例均支持高达50吉比特每秒的网络速度。2019年,亚马逊首次推出了专门优化网络的实例类型,提供了前所未有的100吉比特每秒的网络带宽,而今年新一代已经增加到了200吉比特每秒。2020年,EC2推出了超快的400吉比特每秒的机器学习实例,以支持高度并行的模型训练。本周,亚马逊云科技还宣布了一种新的Trainium实例类型,每个实例的网络带宽高达800吉比特每秒!预计到2023年,EC2将在未来的实例中提供惊人的1.6太比特每秒的速度,展示亚马逊云科技继续关注打破障碍的决心。

除了网络带宽之外,每秒数据包(PPS)吞吐量也同样重要。在幕后,EC2将其基础设施的PPS能力翻倍,以在每个实例中维持每秒数千万个数据包的吞吐量。存储性能也得到显著提高——最新的实例提供80吉比特的EBS带宽和针对亚马逊弹性块存储服务的350,000个IOPS,这对于I/O密集型数据库和应用至关重要。

Nitro系统本身也在不断创新。去年,亚马逊云科技宣布了Nitro SSD存储产品,与传统安装在实例中的传统SSD相比,其读取/写入延迟降低了60%。通过实现在驱动器上进行实时固件更新而无需实例停机,可靠性得到了改善。今天,Dave兴奋地宣布了一项新的TornWrite保护功能,该功能可以显著提高Nitro SSD的性能。通过基本上消除数据库级别双写保护的需求,它可以释放大量资源来执行更多的应用工作。

安全性是Nitro组件的另一个关键关注点。Nitro卡使用全临时加密密钥,在实例启动时生成,并在终止时通过密码删除,以确保客户数据的安全。所有控制面的通信都经过签名和加密,无一例外。此外,亚马逊云科技在设计Nitro时,将其作为根本原则,即亚马逊云科技的员工永远无法登录托管客户实例的基础服务器并访问数据。

尽管EC2提供了诸如可用性区域(AZ)和自动缩放等许多工具,以使应用程序能够应对故障,但团队还致力于卓越的运营和实例本身的可靠性。为了解答这个问题,戴夫邀请了负责卓越运营的主要技术项目经理杰里米·康尼尔进行深入探讨。

杰里米强调,除了利用负载均衡和自动缩放等亚马逊云科技服务外,尽量减少实例运营开销对于满足客户的复杂需求至关重要。EC2致力于通过严格的、基于指标的工作来提高实例的启动时间、可用性和可靠性,包括软件和硬件。外部基准测试显示,EC2实例启动速度平均比领先竞争对手快44%,并通过缓存和并行化等优化继续进一步提高。

在过去的一年里,Linux实例从待处理到SSH就绪的状态仅用了29%的时间,而Amazon Linux 2比其他Linux变体快27%。Windows启动时间已经提高了65%,达到RDP就绪状态,并且使用引导优化的新快速启动功能,速度提高了73%。通过深入研究失败指标,EC2在过去仅仅两年中就减少了62%的年度故障率,远远超过了可靠性目标。先进的实时迁移技术可以在需要维护时将客户实例无缝地更新到新硬件,而不会导致停机。如今,每周有超过100万个实例在进行实时迁移,以保持运行状况。杰里米最后强调,亚马逊云科技通过在软件和硬件上严格、逐步的改进,致力于提供高度可靠的实例体验。

戴夫表示,亚马逊云科技现已提供超过600种不同的实例类型,以满足各类客户的不同工作负载需求。这些实例类型涵盖了各种大小、性能和价格区间,包括通用型、计算/内存/存储优化配置以及采用GPU和机器学习芯片进行加速计算的选项。亚马逊云科技支持四种处理器架构:亚马逊云科技 Graviton、Intel、AMD 和 Apple Silicon。

在与英特尔的合作方面,自EC2成立以来,亚马逊云科技已与英特尔紧密合作了16年之久,共同优化针对云工作负载的处理器。如今,亚马逊云科技提供了超过350种基于英特尔处理器的亚马逊EC2实例类型,其中包括具有最高CPU时钟速度和最高核心数量的最高性能选项。亚马逊云科技持续与英特尔合作推出新型实例类型,如最近推出的搭载第三代英特尔Ice Lake处理器的新网络优化i4i和i5i实例。这些新实例不仅提供了最新的Ice Lake性能,还具备快速的200Gbps网络和80Gbps的EBS吞吐量。

一位使用基于英特尔处理器的亚马逊EC2实例的客户是AI Scouts,这是一家致力于使发掘优秀足球运动员过程大众化的初创公司。他们与亚马逊云科技和英特尔合作,开发了一个新的平台,该平台利用计算机视觉技术来自智能手机拍摄的球员训练视频,以识别运动员的潜力。这个平台使用了英特尔的最新CPU和Habana机器学习加速器,这些加速器可以在EC2 DL1实例上使用,以实时从视频中提取见解。这使得他们能够大规模评估球员,而不需要昂贵的现场选拔,并且已经与切尔西等顶级俱乐部建立了合作关系。

至于基于AMD的实例,第三代EPYC Milan处理器相较于类似的最新一代英特尔至强处理器能提供高达10%的成本降低。AMD也成功地实现了更高核心数的更高效成本扩展。例如,Sprinklr(一家领先的客户体验管理公司)这样的客户已经将其基础设施的大部分迁移到了基于AMD的EC2实例,如M5a、R5a和C5a。他们看到了显著的成本节省,在某些情况下,通过切换到AMD的最新EPYC Milan处理器,某些工作负载的总体拥有成本甚至降低了50%。

亚马逊云科技的Graviton处理器自2018年首次发布以来,承诺相较于基于x86的类似产品将大幅降低成本。如今,新一代的Graviton2处理器为大多数Graviton实例家族提供动力,与当前的英特尔和AMD x86替代品相比,其性能价格比仍高达40%。Graviton2还增加了额外的内存带宽和加密功能。现在,几乎每个主要的EC2实例类型都有基于Graviton的选项,并且会定期添加更多,以便客户能够在各种工作负载中轻松利用成本优势。

在生态系统方面,Graviton支持各种操作系统、流行语言和框架、数据库以及ISV应用程序。迁移通常非常简单——例如,DirecTV Stream将其大部分视频流基础设施迁移到基于Graviton2的EC2实例上,结果运营成本降低了25%,而无需进行代码更改。通过实时迁移,可以在不同类型之间轻松移动实例。

去年发布并在今年早些时候推出的新款Graviton3处理器采用了Arm的新Neoverse架构,性能比Graviton2提高了25%。最新的C7gn实例类型由进一步优化的Graviton3E芯片驱动。Graviton3是亚马逊云科技首款使用DDR5内存的处理器。在单线程工作负载(如加密)方面,它在这些情况下比Graviton2的性能高出80%。电子设计自动化公司Marvell提到,他们发现将芯片设计工作负载迁移到基于Graviton3的EC2实例后,模拟性能提高了40%。这使得他们能够更快地进行设计和测试。

在高性能计算(HPC)领域,新的专用实例类型如基于AMD Milan的C6a和基于Graviton3的C7g使客户能够在云端运行此前只能在内部运行的计算密集型HPC工作负载。一级方程式赛车团队就是一个使用亚马逊云科技HPC功能的例子,如最新的弹性织物适配器网络来运行计算流体动力学模拟。通过模拟汽车表面上的气流并调整设计以获得最佳下压力和阻力损失,他们在采用亚马逊云科技HPC后,已经能够显著影响2022赛季的比赛表现。

机器学习工作负载是亚马逊云科技关注的另一个重要领域。作为全球最大的云计算平台,亚马逊云科技提供多种机器学习平台加速器实例类型,包括Nvidia和Intel的GPU,以及亚马逊云科技自家的定制硅芯片,如Trainium和Inferentia。去年,亚马逊云科技发布了Trainium训练芯片和新Trn1实例。Trainium使得客户能够使用相同的标准化框架(如TensorFlow),但以更低的成本训练模型。例如,对于某些模型(如BERT),Trainium提供的性能价格比相较于基于GPU的训练实例高出50%以上。早期采用者之一是Hexagon Mining,他们将机器学习模型训练迁移到Trainium芯片后,看到了显著的成本节省。

在推理方面,2019年推出的Inferentia芯片驱动的Inf1实例提供比GPU低70%的成本。本周宣布的新Inferentia2(Inf2)实例进一步提高了这一水平,该芯片支持单个实例上多达1750亿参数的模型,具有更高的性能。客户Money Forward提到,他们的AI聊天机器人服务中,Inferentia2相比GPU的推理延迟降低了97%。

此外,为了支持为苹果生态系统构建移动和桌面应用程序的开发人员,亚马逊云科技在过去一年里推出了由苹果硅驱动的M1 Mac实例。最新的M1 Ultra实例提供比之前的x86-based Mac实例快4倍的构建性能。此外,它们为类似Xcode编译的构建工作流程提供了60%更好的性能价格比。这使得开发人员可以通过在亚马逊云科技立即调配容量而不是受到本地Mac硬件的限制,从而最大化生产力并更快地进行迭代。

计算优化专家专注于分析客户的工作负载和使用配置模式,以提供具有节约潜力的建议。截至目前,他们已经发现了超过100亿美元的成本节省机会。亚马逊云科技通过实施节省计划,已为客户节省了150亿美元的成本。企业可以通过采用合适的机制、培育高效文化和领导层关注,实现类似亚马逊云科技的显著云成本优化效果。

戴夫随后介绍了亚马逊云科技的全球基础设施持续快速扩张,拥有30个完整的亚马逊地区和服务器站点遍布世界各地的各大都市圈。这为客户提供了解决地理覆盖范围的问题,使他们能够在离终端用户更近的地方部署应用程序并满足数据存储需求。亚马逊云科技Outposts在客户的自有数据中心内提供原生亚马逊云科技基础设施、服务和API,以满足超低延迟需求或完全隔离的应用程序。

一位标志性的Outposts客户是纳斯达克,他们在金融行业引起了一场风暴,宣布计划将他们的期权市场平台从自己的数据中心迁移到亚马逊云科技——这是主要金融交易所的一次重大创新。戴夫欢迎尼古拉·尤雷维奇,纳斯达克的云计算战略和企业架构高级副总裁,来详细介绍他们开创性的云之旅。

尼古拉解释道,除了自己的市场外,纳斯达克还为全球2300多家金融机构和130多个交易市场提供关键技术和服务。自2008年以来,他们一直是云的先驱,认识到它将如何改变资本市场。然而,将这些订单转换为交易的超低延迟匹配引擎始终是最大的迁移挑战。

亚马逊云科技Outposts最终提供了突破,使纳斯达克能够将其性能、可扩展性和韧性带到这些工作负载中,而不会有任何妥协。经过多年的紧密合作和调整,纳斯达克CMXR期权市场现在已经迁移到了亚马逊云科技Outposts上。早期测试显示,与他们的内部环境相比,Outposts上的订单到交易往返延迟已经提高了大约10%。

据尼古拉所言,这仅仅是一个开始——纳斯达克计划在未来2023年及其后的一段时间内,逐步将其市场系统迁移至云端。同时,他们还正在制定详细的蓝图和最佳实践,以协助客户利用诸如Outposts等技术,将高度受监管的低延迟交易所工作负载迁移到亚马逊云科技上。大卫和尼古拉都表示,他们对于纳斯达克与亚马逊云科技之间的合作前景感到兴奋,因为这将有助于在全球金融市场中实现具有变革性的云功能。

大卫在总结时强调,尽管团队在过去16年里通过EC2为客户取得了诸多成就,但他们仍致力于持续推动性能、成本效益、安全性和功能方面的创新。正如过去一样,未来的可能性依然显得无穷无尽。尽管云计算已经普及,但新的机遇每天都在不断涌现。这一进程始于让计算力量变得如同电力和水一般可靠和普遍的雄心壮志,然而,根据大卫的看法,这仍然只是刚刚开始。他感谢热情洋溢的re:Invent观众,并邀请他们参加更多的EC2会议,以获取更多关于最新产品的信息。

下面是一些演讲现场的精彩瞬间:

在re:Invent上,亚马逊云科技的领导向充满热情的观众问好,并承诺将在计算创新方面发布令人振奋的声明。

亚马逊云科技始终禁止员工直接访问客户数据和设备。

广告技术公司The Trade Desk利用了亚马逊云科技的Nitro Enclaves来安全地处理敏感的客户数据,从而改善了其广告平台的隐私保护。

领导者们强调了亚马逊云科技多年前的Graviton处理器如何推动了整个生态系统的发展,并且Graviton的采用超过了预期,使得现在迁移到Graviton变得非常容易。

Graviton 3处理器提供了比Graviton 2高达25%的性能提升,同时在加密等工作负载上提高了80%,并且还成为了亚马逊云科技首个使用高性能DDR5内存的实例。

HPC6a实例配备了AMD Milan CPU和100Gb网络,这使得亚马逊云科技能够在低成本的情况下赢得高性能计算工作负载的竞争。

领导者们强调,尽管过去取得了巨大的成功,但他们不能因此而自满,应该将他们的成就视为仅仅是一个开始。

总结

亚马逊云科技的副总裁Dave Brown在2022年亚马逊云峰会上阐述了计算领域的创新进展。他回顾了EC2过去15年的发展历程,重点提到了一些重要里程碑,例如目前已启动超过300亿个实例。

Brown详细解释了亚马逊云科技的Nitro技术如何实现将虚拟化功能加载到专用硬件卡上,从而释放CPU资源并提高安全性。他还详细介绍了Nitro网络、存储和安全功能方面的进步,例如加密固态硬盘(SSD)和用于机密计算的Nitro安全模块。

演讲内容涵盖了针对各种工作负载的新EC2实例,如人工智能、高性能计算、数据库和开发者优化实例。Graviton处理器的性价比优势受到了广泛关注,最新的Graviton 3相较于上一代提供了25%更快的性能。

Brown还谈论了在EC2上优化成本的一些最佳实践,包括使用不同类型的实例、利用节省计划的购买选项以及通过自动缩放调整容量。他强调,节俭是亚马逊云科技设计经济高效服务的一个核心原则。

最后,Brown谈到了亚马逊云科技不断扩展的全球基础设施(区域、本地区域和Outposts),以便将计算更贴近客户。他与纳斯达克首席数字官Adina一起分享了他们迈向云的历程以及在使用Outposts早期运行市场系统的成功经验。Brown强调,尽管已经取得了很多成就,但EC2团队仍然致力于计算的持续创新。

演讲原文

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值