原标题:亚马逊研究员手把手教你用AWS Batch玩转深度学习
本文编译自aws.amazon,该文说明了如何在AWS Batch上运行基于GPU的深度学习工作任务。亚马逊研究员Chris Barclay介绍了一个训练卷积神经网络(LeNet)的示例,使用ApacheMXNet识别使用MNIST数据集的手写数字。
GPU实例与深度学习自然搭配的神经网络算法可以利用其自身巨大的并行处理能力。AWS提供GPU实例系列,如g2和p2,可以让客户运行可扩展的GPU工作负载。你可以通过AWS Batch高效地利用这种可扩展性。
AWS Batch可以以你的名义进行基础计算资源的管理,使你能够专注于建模任务,而无需担心资源管理的支出。AWS Batch中的计算环境(即集群)就是你帐户中的实例池,其中AWS Batch可动态地上下调度,配置并终止关于作业数的实例。这可以最大限度地减少空闲实例,从而优化成本。
除此之外,AWS Batch可以确保提交的作业都被安置在适当的实例上,从而管理作业的生命周期。随着客户提供的AMI的增加,AWS Batch中的用户现在可以利用这种弹性和便利性来更好地完成那些需要GPU的作业。
在AWS Batch中运行MXNet作业
Apache的MXNet是一个全功能、灵活可编程且高度可扩展的深度学习框架,支持最先进的深层模型,包括卷积神经网络(CNN)和长短期记忆网络(LSTM)。
运行一个AWS Batch作业需要三个步骤:
创建自定义AMI
创建AWS Batch实体
提交训练工作
★创建自定义AMI
首先创建一个包含NVIDIA驱动程序和AmazonECS