降低延迟多达35%!提升分布式训练工作负载性能

Amazon EC2 P5en实例已全面可用,该实例搭载NVIDIA H200 Tensor Core GPU和定制版第四代Intel Xeon Scalable处理器,该处理器目前通过亚马逊云科技提供,全核睿频频率可达3.2 GHz(最大单核睿频频率为3.8 GHz),相比上一代内存带宽提升50%,并通过PCIe Gen5实现CPU与GPU间的吞吐量提升4倍,从而助力提升机器学习训练和推理工作负载的性能。

Amazon EC2 P5en实例采用Nitro v5技术,配备了高达3200 Gbps的第三代Elastic Fabric Adapter(EFAv3),与采用上一代EFA和Nitro的P5相比,其延迟降低多达35%,这有助于提升分布式训练工作负载(如深度学习、生成式AI、实时数据处理和高性能计算应用)的集群通信性能。

以下是Amazon EC2 P5en实例的规格参数。

2024年9月9日,亚马逊云科技推出了Amazon EC2 P5e实例,该实例配备8个NVIDIA H200 GPU,拥有1128 GB的高带宽GPU内存、第三代AMD EPYC处理器、2 TiB的系统内存和30 TB的本地NVMe存储。这些实例通过EFAv2提供高达3200 Gbps的聚合网络带宽,并支持GPUDirect RDMA,通过绕过CPU进行节点间通信,实现更低的延迟和高效的横向扩展性能。

使用Amazon EC2 P5en实例,您可以通过进一步减少推理和网络延迟,来提高各种GPU加速应用程序的整体效率。与P5实例相比,Amazon EC2 P5en实例的本地存储性能提升多达两倍,Amazon EBS带宽提高了多达25%,对于使用本地存储来缓存模型权重的用户而言,这将进一步优化其推理延迟表现。

CPU与GPU之间的数据传输可能会非常耗时,尤其是需要频繁数据交换的大型数据集或工作负载更为耗时。与P5和P5e实例相比,PCIe Gen 5提供了CPU与GPU之间高达四倍的带宽,使用户能够进一步降低复杂大语言模型(LLMs)和多模态基础模型(FMs)的训练、微调及推理延迟,同时也适用于降低模拟、药物发现、天气预报和金融建模等内存密集型高性能计算(HPC)应用的延迟。

开始使用Amazon EC2 P5en实例

您可以通过适用于机器学习的Amazon EC2容量块、按需实例和节省计划购买选项,在美国东部(俄亥俄州)、美国西部(俄勒冈州)和亚太地区(东京)的亚马逊云科技区域中使用Amazon EC2 P5en实例。

下文将介绍如何选用预留容量这一选项来使用P5en实例。要预留Amazon EC2容量块,请在美国东部(俄亥俄州)亚马逊云科技区域的Amazon EC2控制台中选择“预留容量”,然后点击“购买用于机器学习的容量块”,确定所需总容量,并指明需要为p5en.48xlarge实例预留Amazon EC2容量块的具体时长。您可以预留Amazon EC2容量块的总天数为1-14天、21天或28天,且最多可提前8周购买Amazon EC2容量块。

选择“查找容量块”后,亚马逊云科技会根据您指定的日期范围,提供符合您需求的最低报价。查看Amazon EC2容量块的详细信息、标签以及总价等信息后,可以选择“购买”。

Amazon EC2容量块已成功预定,您需预先支付Amazon EC2容量块的总费用,购买后价格不变。在您购买Amazon EC2容量块后的12小时内,相关费用将计入您的账户。更多信息,请参阅《Amazon EC2用户指南》中《适用于机器学习的容量块》部分。

Amazon EC2用户指南—适用于机器学习的容量块:

https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-capacity-blocks.html

您可以使用亚马逊云科技管理控制台、Amazon CLI或Amazon SDK,来在您购买的容量块内运行实例。

亚马逊云科技管理控制台:

https://console.aws.amazon.com/ec2

Amazon CLI:

https://aws.amazon.com/cli/

Amazon SDK:

http://docs.aws.amazon.com/AWSJavaScriptSDK/latest/AWS/EC2.html

以下为Amazon CLI命令示例,用于运行16个Amazon EC2 P5en实例,来充分发挥EFAv3的优势。该配置提供高达3200 Gbps的EFA网络带宽和高达800 Gbps的IP网络带宽,同时配备了四个私有IP地址。

$ aws ec2 run-instances --image-id ami-abc12345 \
  --instance-type p5en.48xlarge \
  --count 16 \
  --key-name MyKeyPair \
  --instance-market-options MarketType='capacity-block' \
  --capacity-reservation-specification CapacityReservationTarget={CapacityReservationId=cr-a1234567}
--network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=1,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=2,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=3,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=4,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=5,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=6,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=7,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=8,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=9,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=10,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=11,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=12,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=13,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=14,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=15,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
...

左右滑动查看完整示意

在启动Amazon EC2 P5en实例时,您可以使用Amazon Deep Learning AMI(DLAMI)来支持该实例。Amazon DLAMI为机器学习从业者和研究人员提供了在预配置环境中,快速构建可扩展、安全、分布式的机器学习应用程序所需的基础设施和工具。

Amazon Deep Learning AMI:

https://aws.amazon.com/machine-learning/amis/

您可以使用Amazon ECS或Amazon EKS库,在Amazon EC2 P5en实例上运行Amazon Deep Learning Containers。

Amazon ECS:

https://aws.amazon.com/ecs

Amazon EKS:

https://aws.amazon.com/eks

Amazon Deep Learning Containers:

https://aws.amazon.com/machine-learning/containers/

若需快速访问大型数据集,您可以使用高达30 TB的本地NVMe SSD存储,或者使用Amazon S3提供的几乎无限制且经济实惠的存储空间。您还可以在Amazon EC2 P5en实例中使用Amazon FSx for Lustre文件系统,从而以数百GB/s的吞吐量和数百万次输入与输出操作每秒(IOPS)访问数据,满足大规模深度学习和高性能计算(HPC)工作负载需要。

Amazon FSx for Lustre:

https://aws.amazon.com/fsx/lustre/

现已可用

Amazon EC2 P5en实例现已通过适用于机器学习的Amazon EC2容量块、按需实例和节省计划购买选项,在美国东部(俄亥俄州)、美国西部(俄勒冈州)和亚太地区(东京)的亚马逊云科技区域以及美国东部(亚特兰大)本地区域us-east-1-atl-2a中可用。更多信息,请参阅Amazon EC2定价页面。

立即在Amazon EC2控制台中体验Amazon EC2 P5en实例。更多信息,请参阅Amazon EC2 P5实例页面。

Amazon EC2定价:

https://aws.amazon.com/ec2/pricing/

Amazon EC2控制台:

https://console.aws.amazon.com/ec2/

Amazon EC2 P5实例:

https://aws.amazon.com/ec2/instance-types/p5/?trk=51dd90cd-4bb6-46ef-9b65-d7c6ef3705af&sc_channel=el

本篇作者

Channy Yun

亚马逊云科技云的首席布道师。作为一名务实的开发者和博客作者,他热爱社区驱动的技术学习和分享。

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

点击阅读原文查看博客!获得更详细内容!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值