CMP333 | 在下一代 Amazon EC2 实例上扩展网络性能
关键字: [Amazon Web Services re:Invent 2023, Elastic Network Adapter (ENA), Network Performance, Amazon Ec2 Instances, Network Optimized Instances, High Networking Performance, Nitro Innovation]
本文字数: 2300, 阅读完需: 12 分钟
视频
导读
Amazon EC2 网络优化实例为组织提供了云中最高、最一致的网络性能之一。参加本专题讲座,了解如何使用最近推出的 200 Gbps 网络优化实例和最新的 Amazon EC2 网络技术来扩展网络密集型工作负载的性能。
演讲精华
以下是小编为您整理的本次演讲的精华,共2000字,阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
演讲者首先带领我们回顾了创新的历史进程,最终促成了亚马逊EC2最新网络优化实例的诞生。这一历程始于2006年,当时EC2推出了第一款通用型实例类型——M1。起初,人们认为客户只需通过增加更多M1实例就能满足他们的需求。然而,很快人们意识到,客户需要针对不同的业务需求定制专门的实例。
2008年,第一款计算优化的EC2实例问世,相较于M1,它的每内存拥有更少的vCPU。这使得客户能够为其计算密集型应用程序优化内存量与vCPU的比例。随后,2009年,EC2推出了第一款内存优化的实例,以满足每vCPU更多内存的工作负载。
2013年引入的Nitro技术为网络优化实例的出现奠定了基础。Nitro将网络和存储等基础设施进程从CPU中剥离出来,从而降低了实例的开销,释放了更多的CPU资源供客户使用。2014年,C4实例发布,得益于Nitro,它可以将EBS存储处理从主机CPU中剥离出来。C4是与Annapurna Labs公司合作开发的,该公司的技术给EC2团队留下了深刻印象,以至于亚马逊决定收购它。这一收购推动了后续几年的进一步突破。
到2017年,Nitro已经进步到可以剥离CPU上的所有剩余基础设施进程,包括关键控制面和I/O功能。这使2017年的C5实例得以推出——这是第一个使用Nitro超虚拟化支持裸金属架构的实例,它将整个CPU留给客户使用。
2018年,凭借多年的Nitro创新,亚马逊云科技推出了第一款网络优化实例——C5n。它是云中首款提供100 Gbps网络的实例,可以满足对带宽需求巨大的工作负载。随着更多网络优化实例的推出,一系列专为各种客户使用场景定制的完整产品组合应运而生。
然而,为何一开始就需要专门的网络优化实例呢?随着客户逐渐将其更多的工作负载迁移至亚马逊云科技,一些在通用型实例上运行的应用程序在网络性能方面遭遇了瓶颈。受到网络限制的影响,它们无法充分发挥所支付的计算和内存容量。为了满足客户对于紧跟其网络密集型工作负载需求的需求,网络优化实例应运而生。
演讲者详细介绍了在网络优化实例上运行的工作负载类型。首先是一类网络虚拟设备,包括下一代防火墙、虚拟路由器、负载均衡器、IDS/IPS和NAT网关。这些工作负载需要高带宽和高数据包处理性能。其次,还包括利用EFA网络实现低延迟和高吞吐量进行分布式计算和高性能计算集群的工作负载。事实上,网络优化实例最初是在2018年为这些高性能计算使用场景而设计的。HPC的巨大成功推动了亚马逊云科技建立一个完整的HPC实例类型产品组合,有些是在上周的re:Invent上刚刚宣布的。
除了HPC之外,客户还在部署网络优化实例以支持5G UPF、大数据分析、基于CPU的机器学习训练和推理、Aerospike和Redis等内存数据库以及需要快速网络和EBS的高性能文件系统。最近,容器化微服务架构的兴起也促成了对网络优化实例的采用,以支持高密度容器。
截至2022年re:Invent前,网络优化实例产品组合提供高达100 Gbps的网络连接。C5n在2018年推出了这个产品组合。由于其受欢迎程度,还增加了更多的变种,如M5n、R5n,以及针对各种客户使用场景的存储优化的同类产品。
亚马逊云科技深知仍需不断创新,以满足不断发展的新需求。随着客户继续在亚马逊云科技拓展业务,他们期望在区域之间和VPC之间的网络吞吐量得到提高。S3中更大的数据集意味着分析查询需要更快地获取数据。网络设备需要更高的数据包处理性能来处理小数据包流。运行网络密集型应用程序的客户还希望获得更高的EBS性能。
亚马逊云科技在收到一位客户反馈后,开发出了第六代EC2网络优化实例,目前处于预览阶段。C6i实例可提供高达200 Gbps的网络带宽,使得从S3更快地传输数据成为可能。较小的实例尺寸则提供50 Gbps的突发带宽,以满足小规模实例类型的扩展需求。数据包处理性能提升了2倍,有助于网络虚拟设备的正常运行。此外,这些实例还是首次同时具备顶级的网络和EBS性能。
C6i实例支持80 Gbps的EBS带宽和350K IOPS,这使它们成为EC2中最快的EBS性能实例。这使得它们非常适合在高性能文件系统和数据库上利用即时存储卷。与上一代相比,C6i家族还增加了实例存储量,提供高达2倍的NVMe SSD实例存储卷。
初步尝试C6i实例的客户已经取得了良好的效果。网络安全公司Arctic Wolf在其工作负载上运行C6i实例,每秒处理的包数提高了30%。亚马逊云科技的合作伙伴英特尔确保其网络NIC能够充分利用C6i实例上的Ice Lake CPU。英特尔发现,在AI推理、NGINX HTTPS连接和加密工作负载等基准测试中,性能提高了60%。
在Graviton方面,新的C7g实例也取得了类似的进步。在2022年re:Invent上宣布的C7g是第一个达到200 Gbps网络带宽的Graviton实例类型。这些实例在小规模实例上提供50 Gbps的突发带宽。C7g相较于之前的Graviton实例,包的性能提高了50%以上。实际上,C7g在整个EC2网络优化产品组合中提供了最高的总包处理吞吐量。
C7g系列利用了新的Nitro V5卡以及Graviton3 CPU。Nitro V5利用了最新的I/O接口,如PCIe Gen 5和DDR5,以降低延迟并提高每瓦性能。Graviton3处理器提供了高达35%更高的向量指令吞吐量,推动了迄今为止最高性能的Graviton实例。
展望未来,亚马逊云科技表示Nitro系统和新EC2网络方面的创新仍在进行中。在一场精彩的演讲中,约翰详细解释了Nitro如何实现了网络性能的突破。
氮气(Nitro)的核心功能在于将其关键实例功能卸载至专用卡上。这种模块化的方法将氮气卡视为构建模块,从而允许快速的迭代和创新。被卸载的功能包括安全性、存储、虚拟化管理程序以及网络能力。通过从CPU中卸载这些服务,氮气不仅能提高安全性,还能提升整体性能。
约翰特别关注氮气控制器所提供的网络卸载功能。专为亚马逊VPC环境定制的氮气网络卡将CPU从诸如封装、有状态防火墙和本地/远程网络配置等基本网络过程中解放出来。
氮气实现的一个关键创新是弹性网络接口(ENA)。ENA是一种创建一致接口的网络驱动程序,可以跨多个实例系列连接到氮气卡。这个驱动程序抽象允许最高达100Gbps的高速网络传输,同时减少对实例的负载。ENA处理封装、安全组和网络配置,使得CPU无需承担这些工作。
ENA给开发人员和管理员带来了信心,无论他们使用哪个实例或可用性区域,他们都可以获得可预测的网络性能。在核心网络功能之上,ENA还解锁了其他功能,如增强型网络。
增强型网络利用单根I/O虚拟化(SR-IOV)将物理硬件资源专用于单个虚拟实例。SR-IOV使虚拟功能和网络接口之间能够直接通信,绕过虚拟机监控程序以降低延迟。这比传统的虚拟化网络更高效。
约翰还讨论了另一个由ENA和氮气实现的突破性功能——弹性织物适配器(EFA)。于2018年推出的EFA是一种专门针对高性能计算(HPC)和机器学习工作负载(如天气模拟、计算流体动力学和图像识别模型)设计的网络接口。
这些工作负载使用了并行计算技术,以在多个节点上分布处理。EFA提供了连接节点并协调工作的低延迟、高吞吐量织物。EFA使用libfabric在应用层和网络之间实现直接通信,绕过操作系统内核的开销。
在幕后,EFA是由定制的亚马逊云科技协议(Amazon Web Services Agreement, 亚马逊云科技)可扩展可靠数据包(Scalable Reliable Data Package, SRD)驱动的。在2022年re:Invent上也有详细介绍,SRD专为高带宽、低延迟工作负载而构建。它使用ECMP(均衡复制多路径)包喷洒和先进的拥塞控制算法来实现可靠、可扩展的网络性能。
SRD已经对HPC(高性能计算)和亚马逊云科技上的机器学习产生了革命性的影响。但客户希望将其扩展到EFA支持的用例之外。数据库、媒体处理和文件系统也面临着阻碍性能的网络效率问题。团队自问——如何更广泛地利用SRD处理TCP/UDP流量?
这导致了ENA Express的诞生。它采用SRD并将其优化用于与ENA(网络增强型协议)和TCP/UDP连接一起使用。ENA Express在亚马逊 Nitro卡级别对TCP/UDP流量进行封装和解封装,从而隐藏网络不一致性,使快速重传和降低延迟成为可能。
ENA Express提供了重大好处,而无需进行任何应用程序更改。它自动处理TCP和UDP的包重新排序。单个流量的带宽将增加5倍,从5 Gbps增加到25 Gbps。在基准测试中,尾延迟减少高达85%。通过简单的API调用或控制台切换即可轻松启用ENA Express。
约翰展示了这些性能提升的实际效果。在一个测试中,当推动N-to-1工作负载达到总接收器容量的50%时,ENA Express保持了更高的吞吐量,并且重传率更低。超过50%的负载后,标准ENA的吞吐量大幅下降,重传率上升,这是由于ENA Express平稳处理的TCP拥塞问题。
其他基准测试强调了在网络饱和情况下,ENA Express将第99百分位数和第99.9百分位数的尾延迟降低50%。实际应用场景也受益。内存中数据库Redis在第99百分位数和更高位置的尾延迟降低了44%。
实时视频编码工作负载需要在紧定时窗口内交付帧以避免故障。ENA Express确保24小时内HD和4K视频流的零迟到的帧。由于流量限制,标准ENA无法可靠地提供4K吞吐量。ENA Express完全消除了这一障碍。
最后,约翰表示,目前的ENA快速版已经适用于所有商业区域的C6i实例,且更多实例系列也将很快推出。他鼓励客户尝试使用并提供反馈。该系统具有内置的监控功能,以便于故障排除。
总的来说,自2006年首个EC2实例以来,演讲者们讲述了创新的网络优化实例的发展历程,这些实例可提供高达200 Gbps的吞吐量。Nitro技术的出现为将网络负载从CPU中分流并实现诸如ENA、EFA和SRD等变革性技术奠定了基础。如今,ENA快速版已将SRD的优势扩展至更广泛的亚马逊云科技网络领域。这些创新使客户能够在亚马逊云科技上运行各类性能敏感的工作负载。
下面是一些演讲现场的精彩瞬间:
约翰·潘格尔(John Pangle)是亚马逊云科技的高级产品经理,他称自己为数据处理和联网团队的一员。
新型的CMR变种为需要扩展和突发工作负载提供了更高级别的网络带宽和包性能。
ENA通过将关键网络功能卸载到专用硬件上,实现了跨各种实例类型的高性能网络。
增强的网络提供了更高的性能能力,使得低延迟应用程序能够更好地运行。
ENA Express在SRD的基础上进行了扩展,对TCP和UDP是透明的,不需要应用更改——只需要简单的每块网卡的配置。
领导者们强调了亚马逊云科技如何能够在数千个数据点上保持低延迟,从而实现广播质量的视频流。
领导者们强调了亚马逊云科技在计算网络方面的创新,如新型弹性织物适配器。
总结
此次演讲探讨了亚马逊云科技在提升EC2实例网络性能方面所取得的创新成果。演讲者详细阐述了亚马逊云科技如何将EC2从通用型实例逐步演进成为针对计算、内存或网络进行优化的专业化实例。他们展示了一款全新的第六代网络优化型实例,其带宽最高可达200Gbps,旨在加速数据传输和分析。这一关键优势在于能够在像数据库这类工作负载中实现在同一实例上的高网络和EBS性能。基于Graviton的C7g新实例提供了最高的每vCPU网络性能。演讲者接着讲解了Nitro系统如何能将关键功能卸载到专门的网络等卡片上。这使得像ENA网络驱动程序这样的一贯性能得以实现。他们还介绍了ENA Express,通过利用SRD协议将单流量带宽提高5倍,从而将尾端延迟降至原来的85%。对于数据库和视频编码这类工作负载,ENA Express可将尾端延迟降低85%。演讲者强调,亚马逊云科技正通过快速创新网络性能来满足新兴工作负载的需求。
演讲原文
想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
2023亚马逊云科技re:Invent全球大会 - 官方网站
点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!
点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!
即刻注册亚马逊云科技账户,开启云端之旅!
【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”
亚马逊云科技是谁?
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。