基于horovod实现Pytorch多机分布式训练

最新推荐文章于 2024-08-08 18:13:10 发布

house.zhang

最新推荐文章于 2024-08-08 18:13:10 发布

阅读量2.4k

点赞数 1

分类专栏：人工智能文章标签：机器学习人工智能深度学习分布式

本文链接：https://blog.csdn.net/pop_xiaohao/article/details/106221914

版权

本文介绍了Uber的Horovod框架，它整合了多种深度学习的分布式训练，提供高效线性加速。内容包括Horovod的工作原理，镜像制作过程，以及在Pytorch上的性能分析，使用MNIST数据集进行测试。

摘要由CSDN通过智能技术生成

由Uber公司的开发的Horovod架构，是一个集成了多个深度学习的统一平台，提供分布式训练效率的同事，让深度学习分布式训练变得更方便。

前言

在深度学习领域中，当计算数据较多或者模型较大时，为提高模型训练效率，一般采用多GPU的分布式训练，常见的深度学习框架都支持分布式训练，虽然这些框架都各自有分布式实现，但不能统一到一个平台上，造成使用上体验不好，由Uber公司的开发的Horovod架构，它是一个集成了多个深度学习的统一平台，提供分布式训练同时则让深度学习分布式训练变得更方便。本文主要对Horovod的工作原理进行简单介绍，然后给出TI上包含镜像制作以及ti平台的使用。

工作原理

Uber公司开发的Horovod架构是利用nvidia的NCCL2作为底层的通信基础，实现了单机多卡，多机多卡分布式训练高效的线性加速。为了更好描述NCCL2的通信原理，下面通过两幅图进行表述：图1是单机多卡的通信原理（GPU Direct P2P），图2是多机多卡的通信原理（GPU Direct RDMA）。从图中可以看到，无论单机的GPU通信还是多机的GPU通信，只需要保证GPU在相同PCI-e总线下，即可实现GPU对其他GPU Memory的访问，最终达到高带宽、低延迟和低资源利用率的效果。这点对于深度学习的模型训练而言，通过利用GPU间高带宽完成梯度更新 + 参数更新，可明显的提高整个训练速度。

在这里插入图片描述
图1