亚马逊云科技推出Amazon SageMaker HyperPod灵活训练计划,旨在帮助数据科学家在既定时间和预算范围内训练大模型(FMs),并基于计算资源的可用性,为其节省数周管理训练过程的工作量。
大多数生成式AI模型的开发任务都需要并行使用加速计算资源,亚马逊云科技客户难以在有限的时间和预算内,及时获取到可用的计算资源来完成训练任务。为此,亚马逊云科技在re:Invent 2023大会上,推出了Amazon SageMaker HyperPod,其通过预配置的分布式训练库和内置弹性,可将FM的训练时间缩短高达40%,实现数千个计算资源的并行扩展。
随着Amazon SageMaker HyperPod灵活训练计划的推出,您可以找到模型训练所需的高性能计算资源,制定最优的训练计划,并根据计算资源的可用性,在不同的容量块中运行训练工作负载。只需几步操作,您就可以确定训练完成日期、预算、计算资源需求,制定最优训练计划,并运行完全托管的训练作业,无需人工干预。
Amazon SageMaker HyperPod
训练计划实际应用
要开始使用,请前往Amazon SageMaker AI控制台,在左侧导航窗格中选择“训练计划”,然后选择“创建训练计划”。
Amazon SageMaker AI控制台:
https://console.aws.amazon.com/sagemaker/?trk=769a1a2b-8c19-4976-9c45-b6b1226c7d20&sc_channel=el
例如,为Amazon SageMaker HyperPod集群选择首选训练日期和时间(10天)、实例类型和数量(16个ml.p5.48xlarge实例),然后选择“查找训练计划”。
Amazon SageMaker HyperPod建议将训练计划分为两个五天时段,包括该计划的预付总费用。
如果您接受此训练计划,请在下一步中添加训练详情,并选择“创建计划”。
创建训练计划后,您可以查看训练计划列表。创建训练计划后,您需要在12小时内预付该计划的费用。其中一项计划处于“激活”状态并已开始执行,所有实例均在使用中,另一项计划安排稍后开始执行,您也可以提前提交任务,这些任务将在计划开始时自动启动。
在激活状态下,Amazon SageMaker HyperPod中的计算资源可用,即便资源暂时不可用,之后也会自动恢复可用,并在训练计划结束时自动终止。当前有一个时段正在运行,另一个时段在当前时段结束后继续运行。
这与Amazon SageMaker AI中的Managed Spot训练类似,在Managed Spot训练中,Amazon SageMaker AI会处理实例中断问题,无需人工干预即可继续训练。更多信息,请参阅《Amazon SageMaker AI开发者指南》中的Amazon SageMaker HyperPod训练计划部分。
Amazon SageMaker AI中的Managed Spot训练:
https://docs.aws.amazon.com/sagemaker/latest/dg/model-managed-spot-training.html?trk=769a1a2b-8c19-4976-9c45-b6b1226c7d20&sc_channel=el
Amazon SageMaker HyperPod训练计划:
https://docs.aws.amazon.com/sagemaker/latest/dg/reserve-capacity-with-training-plans.html
现已可用
Amazon SageMaker HyperPod训练计划现已在美国东部(北弗吉尼亚)、美国东部(俄亥俄)、美国西部(俄勒冈)亚马逊云科技区域推出,并支持ml.p4d.48xlarge、ml.p5.48xlarge、ml.p5e.48xlarge、ml.p5en.48xlarge和ml.trn2.48xlarge实例,trn2和p5en实例仅在美国东部(俄亥俄)区域提供。更多信息,请参阅Amazon SageMaker HyperPod产品页面和Amazon SageMaker AI定价页面。
诚邀您在Amazon SageMaker AI控制台中,立即体验Amazon SageMaker HyperPod训练计划功能。
Amazon SageMaker HyperPod产品页面:
https://aws.amazon.com/sagemaker/hyperpod?trk=769a1a2b-8c19-4976-9c45-b6b1226c7d20&sc_channel=el
Amazon SageMaker AI定价页面:
https://aws.amazon.com/sagemaker/pricing?trk=769a1a2b-8c19-4976-9c45-b6b1226c7d20&sc_channel=el
Amazon SageMaker AI控制台:
https://console.aws.amazon.com/sagemaker?trk=769a1a2b-8c19-4976-9c45-b6b1226c7d20&sc_channel=el
本篇作者
Channy Yun
亚马逊云科技云的首席布道师。作为一名务实的开发者和博客作者,他热爱社区驱动的技术学习和分享。
星标不迷路,开发更极速!
关注后记得星标「亚马逊云开发者」
听说,点完下面4个按钮
就不会碰到bug了!
点击阅读原文查看博客!获得更详细内容!