亚马逊云科技在2022 re:Invent全球大会上宣布,推出三款分别由三种新的自研芯片支持的Amazon Elastic Compute Cloud(Amazon EC2)实例,为客户广泛的工作负载提供更高性价比。Hpc7g实例配备了Amazon自研的最新Graviton3E处理器,与当前一代C6gn实例相比浮点性能提高了2倍,与当前一代Hpc6a实例相比性能提高了20%,为亚马逊云科技上的高性能计算工作负载提供了超高性价比。配备了新一代Amazon Nitro的C7gn实例,与当前一代网络优化型实例相比,为每个CPU提供了多达2倍的网络带宽,同时将每秒数据包转发性能提升50%,为网络密集型工作负载提供了超高的网络带宽、数据包转发性能和性价比。Inf2实例配备了Amazon自研的最新Inferentia2机器学习加速推理芯片,是专门为运行多达1,750亿个参数的大型深度学习模型而构建的,与当前一代Inf1实例相比可提供高达4倍的吞吐量,降低多达10倍的延迟,以最低的成本为Amazon EC2上的机器学习推理提供最低延迟。
亚马逊云科技拥有十多年芯片设计经验,在云中以更低成本实现更高的性能和可扩展性。十多年来,亚马逊云科技推出了多种定制化的芯片设计,帮助客户运行要求更高的工作负载,包括更快的处理速度、更高的内存容量、更快的存储输入/输出(I/O)和更高的网络带宽。亚马逊云科技自2013年推出Amazon Nitro系统以来,已经开发了多个自研芯片,包括五代Nitro系统、致力于为各种工作负载提升性能和优化成本的三代Graviton芯片、用于加速机器学习推理的两代Inferentia芯片,以及用于加速机器学习训练的Trainium芯片。亚马逊云科技在芯片设计和验证的敏捷开发周期中使用基于云的电子设计自动化,这使团队能够更快地创新,更快地将芯片提供给客户。实践证明,亚马逊云科技更现代化、更节能的半导体处理确保了芯片的快速迭代及交付。每推出一款新的芯片,亚马逊云科技都进一步提升了这些芯片支持的Amazon EC2实例的性能、效率以及更优化的成本,为客户提供了更多的芯片和实例组合选择,针对他们独特的工作负载进行了优化。
Hpc7g实例专为在Amazon EC2上大规模运行高性能计算工作负载提供超高性价比
很多领域的组织需要依靠高性能计算来解决复杂的学术、科学和商业问题。当前,众多客户如阿斯利康、F1一级方程式赛车、Maxar Technologies等在亚马逊云科技上借助其提供的卓越的安全性、可扩展性和弹性,运行传统的高性能计算工作负载,包括基因组学处理、计算流体动力学和天气预报模拟等。工程师、研究人员和科学家使用Amazon EC2网络优化型实例(如C5n、R5n、M5n和C6gn)运行高性能计算工作负载,这些实例提供了近乎无限的计算能力和服务器之间的高网络带宽,实现数千个内核处理和交换数据。虽然这些实例的性能足以满足目前大多数高性能计算场景,但人工智能和自动驾驶汽车等新兴应用需要高性能计算优化实例,可以扩展到数万个甚至更多的内核,进一步解决难度系数持续增加的问题并降低高性能计算工作负载的成本。
Hpc7g实例由新的Amazon Graviton3E芯片提供支持,为客户在Amazon EC2上的高性能计算工作负载(如计算流体动力学、天气模拟、基因组学和分子动力学等)提供了超高的性价比。与采用Graviton2处理器的当前一代C6gn实例相比,Hpc7g实例的浮点性能提高了2倍,与当前一代Hpc6a实例相比性能提高了20%,让客户能够在多达数万个内核的高性能计算集群中进行复杂的计算。Hpc7g实例还提供高内存带宽和200Gbps的EFA (Elastic Fabric Adapter,弹性结构适配器)网络带宽,可以更快地运行并完成高性能计算应用。客户可以通过开源的集群管理工具Amazon ParallelCluster使用Hpc7g实例,与其它实例类型一起配置Hpc7g实例,这让客户在同一个高能性计算集群中灵活运行不同的工作负载类型。
C7gn实例为网络密集型工作负载提供极佳性能,具有更高的网络带宽、更高的数据包转发性能和更低的延迟
客户使用Amazon EC2网络优化型实例运行其要求极其严苛的网络密集型工作负载,如网络虚拟化设备(包括防火墙、虚拟路由器和负载均衡器等)和数据加密业务等。客户需要为这些工作负载扩展性能,以处理不断增加的网络流量来应对业务高峰,或者缩短处理时间为最终用户提供更好的体验。当前,为获得更多的网络吞吐量,客户采用更大型号的实例,部署远高于需求的计算资源,导致成本增加。这些客户为减少数据处理时间,需要更高的数据包转发性能、更高的网络带宽以及更快的加密性能。
C7gn实例采用新的、具有网络加速功能的第五代Nitro,在Amazon EC2网络优化型实例中具有最高的网络带宽和数据包处理性能,而且功耗更低。Nitro卡将主机CPU的I/O功能卸载到专门的硬件并进行加速,将Amazon EC2实例的所有资源几乎都提供给客户的工作负载,从而以更低的CPU利用率实现更稳定的性能。新款Amazon Nitro卡使C7gn实例的每个CPU提供高达2倍的网络带宽,将每秒数据包处理性能提升50%,与当前一代网络优化型Amazon EC2实例相比,进一步降低了EFA网络延迟。与C6gn实例相比,C7gn实例提高了多达25%的计算性能及多达2倍的加密性能。第五代Nitro比第四代Nitro效能功耗比提升40%,进一步降低了客户工作负载的能量消耗。C7gn实例通过扩展网络性能和吞吐量以及减少网络延迟,优化了客户在Amazon EC2上要求最严苛的网络密集型工作负载的成本。
Inf2实例专为部署当今最严苛的深度学习模型而设计,支持分布式推理和随机舍入算法
为提供更好的应用或者更加定制的个性化体验,数据科学家和机器学习工程师正在构建更大、更复杂的深度学习模型。例如,越来越普遍地超过1,000亿个参数的大型语言模型(LLM),由于它们需要巨量的数据进行训练,这推动了对计算需求的空前增长。虽然训练备受大家关注,但在生产中运行机器学习,大部分的复杂性和成本却在推理上(例如,每花1美元用于训练,将有多达9美元用于推理),这限制了推理的使用并阻碍了客户创新。客户希望在其应用中大规模使用先进的深度学习模型,但却受限于高额的计算成本。当亚马逊云科技在2019年推出Inf1实例时,深度学习模型具有数百万个参数。此后,深度学习模型的规模和复杂性呈指数级增长,甚至有些深度学习模型的参数增长了500倍,超过了数千亿。致力于使用最先进的深度学习技术,开发下一代应用的客户,希望拥有高性价比、高能效的硬件,实现低延迟、高吞吐量的推理以及灵活的软件的支持,让工程团队能够快速大规模地部署其业务创新。
Inf2实例,配备了Amazon自研的最新款Inferentia2机器学习加速推理芯片,可以运行高达1,750亿个参数的大型深度学习模型(如LLM、图像生成和自动语音检测),同时在Amazon EC2上提供最低的单次推理成本。Inf2是第一个支持分布式推理的推理优化型Amazon EC2实例,该技术将大型模型分布在多个芯片上,为参数超过1,000亿的深度学习模型提供极佳性能。Inf2实例支持随机舍入,这种以概率方式进行四舍五入的方式与传统的四舍五入相比,能够提供更高的性能和更高的精度。Inf2实例支持广泛的数据类型,包括可提高吞吐量并降低了每次推理功耗的CFP8,和可提升尚未利用到低精度数据类型模块性能的FP32。客户可以通过用于机器学习推理的统一软件开发工具包Amazon Neuron开始使用Inf2实例。Amazon Neuron与PyTorch和TensorFlow等流行的机器学习框架集成,帮助客户仅需少量代码改动就能将现有模型部署到Inf2实例。由于大型模型需要多个芯片支持,芯片之间需要实现快速通信,Inf2实例支持亚马逊云科技的实例内部高速互连技术NeuronLink,提供192GB/s的环形连接。与当前一代Inf1实例相比,Inf2实例提供了高达4倍的吞吐量,降低多达10倍的延迟,与基于GPU的实例相比,它的每瓦性能提升高达45%。