几步操作即可制定最优训练计划,节省数周工作量

亚马逊云科技推出Amazon SageMaker HyperPod灵活训练计划,旨在帮助数据科学家在既定时间和预算范围内训练大模型(FMs),并基于计算资源的可用性,为其节省数周管理训练过程的工作量

大多数生成式AI模型的开发任务都需要并行使用加速计算资源,亚马逊云科技客户难以在有限的时间和预算内,及时获取到可用的计算资源来完成训练任务。为此,亚马逊云科技在re:Invent 2023大会上,推出了Amazon SageMaker HyperPod,其通过预配置的分布式训练库和内置弹性,可将FM的训练时间缩短高达40%,实现数千个计算资源的并行扩展

随着Amazon SageMaker HyperPod灵活训练计划的推出,您可以找到模型训练所需的高性能计算资源制定最优的训练计划,并根据计算资源的可用性,在不同的容量块中运行训练工作负载。只需几步操作,您就可以确定训练完成日期、预算、计算资源需求,制定最优训练计划,并运行完全托管的训练作业,无需人工干预。

Amazon SageMaker HyperPod

训练计划实际应用

要开始使用,请前往Amazon SageMaker AI控制台,在左侧导航窗格中选择“训练计划”,然后选择“创建训练计划”。

Amazon SageMaker AI控制台:

https://console.aws.amazon.com/sagemaker/?trk=769a1a2b-8c19-4976-9c45-b6b1226c7d20&sc_channel=el

例如,为Amazon SageMaker HyperPod集群选择首选训练日期和时间(10天)、实例类型和数量(16个ml.p5.48xlarge实例),然后选择“查找训练计划”。

Amazon SageMaker HyperPod建议将训练计划分为两个五天时段,包括该计划的预付总费用。

如果您接受此训练计划,请在下一步中添加训练详情,并选择“创建计划”。

创建训练计划后,您可以查看训练计划列表。创建训练计划后,您需要在12小时内预付该计划的费用。其中一项计划处于“激活”状态并已开始执行,所有实例均在使用中,另一项计划安排稍后开始执行,您也可以提前提交任务,这些任务将在计划开始时自动启动。

在激活状态下,Amazon SageMaker HyperPod中的计算资源可用,即便资源暂时不可用,之后也会自动恢复可用,并在训练计划结束时自动终止。当前有一个时段正在运行,另一个时段在当前时段结束后继续运行。

这与Amazon SageMaker AI中的Managed Spot训练类似,在Managed Spot训练中,Amazon SageMaker AI会处理实例中断问题,无需人工干预即可继续训练。更多信息,请参阅《Amazon SageMaker AI开发者指南》中的Amazon SageMaker HyperPod训练计划部分。

Amazon SageMaker AI中的Managed Spot训练:

https://docs.aws.amazon.com/sagemaker/latest/dg/model-managed-spot-training.html?trk=769a1a2b-8c19-4976-9c45-b6b1226c7d20&sc_channel=el

Amazon SageMaker HyperPod训练计划:

https://docs.aws.amazon.com/sagemaker/latest/dg/reserve-capacity-with-training-plans.html

现已可用

Amazon SageMaker HyperPod训练计划现已在美国东部(北弗吉尼亚)、美国东部(俄亥俄)、美国西部(俄勒冈)亚马逊云科技区域推出,并支持ml.p4d.48xlarge、ml.p5.48xlarge、ml.p5e.48xlarge、ml.p5en.48xlarge和ml.trn2.48xlarge实例,trn2和p5en实例仅在美国东部(俄亥俄)区域提供。更多信息,请参阅Amazon SageMaker HyperPod产品页面和Amazon SageMaker AI定价页面。

诚邀您在Amazon SageMaker AI控制台中,立即体验Amazon SageMaker HyperPod训练计划功能。

Amazon SageMaker HyperPod产品页面:

https://aws.amazon.com/sagemaker/hyperpod?trk=769a1a2b-8c19-4976-9c45-b6b1226c7d20&sc_channel=el

Amazon SageMaker AI定价页面:

https://aws.amazon.com/sagemaker/pricing?trk=769a1a2b-8c19-4976-9c45-b6b1226c7d20&sc_channel=el

Amazon SageMaker AI控制台:

https://console.aws.amazon.com/sagemaker?trk=769a1a2b-8c19-4976-9c45-b6b1226c7d20&sc_channel=el

本篇作者

Channy Yun

亚马逊云科技云的首席布道师。作为一名务实的开发者和博客作者,他热爱社区驱动的技术学习和分享。

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

点击阅读原文查看博客!获得更详细内容!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值