【架构分析】分布式训练框架horovod源码分析

目录

概述

软件架构

工作时序


概述

Horovod是当下流行的分布式训练框架,它是Uber公司提出来的。受到百度的RingAllReduce项目的启发。Horovod成功之处是工程化做的非常好,它把梯度同步的概念抽象出来,作为一个单独的Python包,支持不同的框架。同时提出了Tensor Fusion和Gradient Compression技术来进一步提供通信性能,基本上被业界作为通用技术接受了。另外还提供TimeLine工具来方便进行性能调试。

以下是Horovod和PS的性能对比,可以看到它极大的提高了分布式训练的性能。

本文基于Horovod 开源项目 链接  对它的软件架构,以及典型的工作时序给出说明

软件架构

horovod软件架构与Pytorch和Tensorflow框架的集成

 

工作时序

 horovod 对pytorch和tensorlfow的app 侵入代码非常少,典型的工作时序如上,app代码可以参考官方示例

pytorch app 使用 Horovod 示例

tensorflow app 使用 Horovod 示例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值