Amazon EC2 P5en实例已全面可用,该实例搭载NVIDIA H200 Tensor Core GPU和定制版第四代Intel Xeon Scalable处理器,该处理器目前通过亚马逊云科技提供,全核睿频频率可达3.2 GHz(最大单核睿频频率为3.8 GHz),相比上一代内存带宽提升50%,并通过PCIe Gen5实现CPU与GPU间的吞吐量提升4倍,从而助力提升机器学习训练和推理工作负载的性能。
Amazon EC2 P5en实例采用Nitro v5技术,配备了高达3200 Gbps的第三代Elastic Fabric Adapter(EFAv3),与采用上一代EFA和Nitro的P5相比,其延迟降低多达35%,这有助于提升分布式训练工作负载(如深度学习、生成式AI、实时数据处理和高性能计算应用)的集群通信性能。
以下是Amazon EC2 P5en实例的规格参数。
2024年9月9日,亚马逊云科技推出了Amazon EC2 P5e实例,该实例配备8个NVIDIA H200 GPU,拥有1128 GB的高带宽GPU内存、第三代AMD EPYC处理器、2 TiB的系统内存和30 TB的本地NVMe存储。这些实例通过EFAv2提供高达3200 Gbps的聚合网络带宽,并支持GPUDirect RDMA,通过绕过CPU进行节点间通信,实现更低的延迟和高效的横向扩展性能。
使用Amazon EC2 P5en实例,您可以通过进一步减少推理和网络延迟,来提高各种GPU加速应用程序的整体效率。与P5实例相比,Amazon EC2 P5en实例的本地存储性能提升多达两倍,Amazon EBS带宽提高了多达25%,对于使用本地存储来缓存模型权重的用户而言,这将进一步优化其推理延迟表现。
CPU与GPU之间的数据传输可能会非常耗时,尤其是需要频繁数据交换的大型数据集或工作负载更为耗时。与P5和P5e实例相比,PCIe Gen 5提供了CPU与GPU之间高达四倍的带宽,使用户能够进一步降低复杂大语言模型(LLMs)和多模态基础模型(FMs)的训练、微调及推理延迟,同时也适用于降低模拟、药物发现、天气预报和金融建模等内存密集型高性能计算(HPC)应用的延迟。
开始使用Amazon EC2 P5en实例
您可以通过适用于机器学习的Amazon EC2容量块、按需实例和节省计划购买选项,在美国东部(俄亥俄州)、美国西部(俄勒冈州)和亚太地区(东京)的亚马逊云科技区域中使用Amazon EC2 P5en实例。
下文将介绍如何选用预留容量这一选项来使用P5en实例。要预留Amazon EC2容量块,请在美国东部(俄亥俄州)亚马逊云科技区域的Amazon EC2控制台中选择“预留容量”,然后点击“购买用于机器学习的容量块”,确定所需总容量,并指明需要为p5en.48xlarge实例预留Amazon EC2容量块的具体时长。您可以预留Amazon EC2容量块的总天数为1-14天、21天或28天,且最多可提前8周购买Amazon EC2容量块。
选择“查找容量块”后,亚马逊云科技会根据您指定的日期范围,提供符合您需求的最低报价。查看Amazon EC2容量块的详细信息、标签以及总价等信息后,可以选择“购买”。
Amazon EC2容量块已成功预定,您需预先支付Amazon EC2容量块的总费用,购买后价格不变。在您购买Amazon EC2容量块后的12小时内,相关费用将计入您的账户。更多信息,请参阅《Amazon EC2用户指南》中《适用于机器学习的容量块》部分。
Amazon EC2用户指南—适用于机器学习的容量块:
https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-capacity-blocks.html
您可以使用亚马逊云科技管理控制台、Amazon CLI或Amazon SDK,来在您购买的容量块内运行实例。
亚马逊云科技管理控制台:
https://console.aws.amazon.com/ec2
Amazon CLI:
https://aws.amazon.com/cli/
Amazon SDK:
http://docs.aws.amazon.com/AWSJavaScriptSDK/latest/AWS/EC2.html
以下为Amazon CLI命令示例,用于运行16个Amazon EC2 P5en实例,来充分发挥EFAv3的优势。该配置提供高达3200 Gbps的EFA网络带宽和高达800 Gbps的IP网络带宽,同时配备了四个私有IP地址。
$ aws ec2 run-instances --image-id ami-abc12345 \
--instance-type p5en.48xlarge \
--count 16 \
--key-name MyKeyPair \
--instance-market-options MarketType='capacity-block' \
--capacity-reservation-specification CapacityReservationTarget={CapacityReservationId=cr-a1234567}
--network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=1,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=2,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=3,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=4,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=5,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=6,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=7,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=8,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=9,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=10,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=11,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=12,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=13,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=14,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=15,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
...
左右滑动查看完整示意
在启动Amazon EC2 P5en实例时,您可以使用Amazon Deep Learning AMI(DLAMI)来支持该实例。Amazon DLAMI为机器学习从业者和研究人员提供了在预配置环境中,快速构建可扩展、安全、分布式的机器学习应用程序所需的基础设施和工具。
Amazon Deep Learning AMI:
https://aws.amazon.com/machine-learning/amis/
您可以使用Amazon ECS或Amazon EKS库,在Amazon EC2 P5en实例上运行Amazon Deep Learning Containers。
Amazon ECS:
https://aws.amazon.com/ecs
Amazon EKS:
https://aws.amazon.com/eks
Amazon Deep Learning Containers:
https://aws.amazon.com/machine-learning/containers/
若需快速访问大型数据集,您可以使用高达30 TB的本地NVMe SSD存储,或者使用Amazon S3提供的几乎无限制且经济实惠的存储空间。您还可以在Amazon EC2 P5en实例中使用Amazon FSx for Lustre文件系统,从而以数百GB/s的吞吐量和数百万次输入与输出操作每秒(IOPS)访问数据,满足大规模深度学习和高性能计算(HPC)工作负载需要。
Amazon FSx for Lustre:
https://aws.amazon.com/fsx/lustre/
现已可用
Amazon EC2 P5en实例现已通过适用于机器学习的Amazon EC2容量块、按需实例和节省计划购买选项,在美国东部(俄亥俄州)、美国西部(俄勒冈州)和亚太地区(东京)的亚马逊云科技区域以及美国东部(亚特兰大)本地区域us-east-1-atl-2a中可用。更多信息,请参阅Amazon EC2定价页面。
立即在Amazon EC2控制台中体验Amazon EC2 P5en实例。更多信息,请参阅Amazon EC2 P5实例页面。
Amazon EC2定价:
https://aws.amazon.com/ec2/pricing/
Amazon EC2控制台:
https://console.aws.amazon.com/ec2/
Amazon EC2 P5实例:
https://aws.amazon.com/ec2/instance-types/p5/?trk=51dd90cd-4bb6-46ef-9b65-d7c6ef3705af&sc_channel=el
本篇作者
Channy Yun
亚马逊云科技云的首席布道师。作为一名务实的开发者和博客作者,他热爱社区驱动的技术学习和分享。
星标不迷路,开发更极速!
关注后记得星标「亚马逊云开发者」
听说,点完下面4个按钮
就不会碰到bug了!
点击阅读原文查看博客!获得更详细内容!