OrionX（猎户座）AI加速器资源池化软件赋能深度学习分布式训练

virtaitech

于 2021-07-27 16:09:47 发布

阅读量954

点赞数

文章标签： gpu ai 人工智能云服务器

本文链接：https://blog.csdn.net/m0_49711991/article/details/119145981

版权

OrionX是一款支持分布式训练的资源池化软件，简化了深度学习的多GPU和多机训练。通过OrionX，用户可以在不修改代码的情况下，利用多台服务器的GPU资源，提升训练效率。它支持TensorFlow+Horovod和PyTorch的DistributedDataParallel，提供高资源利用率和低复杂度的解决方案。

摘要由CSDN通过智能技术生成

什么是分布式训练

对于机器学习/深度学习中的模型训练任务来说，算力的需求与日俱增。分布式训练采用多个计算节点，利用分布式编程的技术实现远超于单机的计算算力。

在回答这个问题之前，咱们先看一下深度学习模型常见的训练方式：

1、单机单卡训练，单GPU方式，这种训练方式常见于个人开发者自己的笔记本/工作站上，或者计算量需求相对较小的训练任务上。

2、单机多卡训练，仍然是以单机形式，常见于单台企业级服务器里面配置多张GPU卡并行训练。比如我们在一台机器上安装8张GPU卡，都跑一次BP算法计算出梯度，把所有GPU上计算出梯度进行平均，然后更新参数。这样的话，以前一次BP只能喂1个batch的数据，现在就是8个batch。理论上来说，速度提升了8倍（除去GPU通信的时间等等）。这也是分布式训练提升速度的基本原理。

3、多机多卡训练，对于上述两种单机训练来说，随着数据集的增加以及模型参数量的提升，单机模型训练始终会陷入算力瓶颈。所以对于模型训练，不少企业开始尝试多机多卡分布式训练。相对于上述两种训练方式，多机多卡训练顾名思义就是使用很多台机器，每台机器上都有多张GPU卡，模型跑在所有机器的GPU上以加快训练速度。

因此，我们总结出分布式训练的基本定义：对于机器学习/深度学习中的模型训练任务，采用多个计算节点，利用分布式编程的技术实现远超于单机的计算算力。

目前深度学习主流框架全支持分布式训练，甚至有专门为分布式训练打造的框架。目前深度学习主流框架（如TensorFlow, PyTorch, Paddle Paddle, MXNet等）全支持分布式训练，也因为分布式训练性能优化的难题，学术界和业界也有专门为分布式训练设计的框架(如Horovod, DeepSpeed)。