高效分布式深度学习训练方案(一):Horovod分布式框架

(一)分布式训练基础知识:

深度学习训练中的“反向传播”:通过神经网络得到预测结果,把预测结果跟标注Label进行比对,发现误差;然后得到神经网络里每个神经元权重导数;接着通过算法得到每个神经元导数,再通过“梯度下降”原则,更新神经元的权重以得到更好的神经元网络,周而复始迭代训练,使得误差减少,最终得到能够对训练数据集得到符合误差指标的结果的一组权重参数,即训练好的一个网络模型。所谓的“梯度下降”原则,即神经网络可以看成一个非常复杂的函数,包含数百万个参数。这些参数代表的是一个问题的数学解答。实质上,训练神经网络=最小化一个损失函数。“梯度下降”原则可以帮助我们在多次迭代“反向传播”后找到那个最小化的损失函数。

目前,神经网络推理能力随着规模、复杂度增加,从计算能力角度来说出现了新问题:很多时候大规模神经网络很难在单个/单点计算单元里面运行(单卡GPU显存受限),这会导致计算很慢(降低batchsize,增加epoch),以至无法高效运行大规模数据。当隐藏网络层数越多时(总网络层级增多时),这一问题将更加严重,运算会越复杂。

人们提出两种深度学习的基本方法以解决这个问题:

(1)模型并行(model parallel)。即把复杂的神经网络拆分,分布在计算单元或者GPU里面进行学习,让每个GPU同步进行计算。这个方法通常用在模型比较复杂的情况下。

(2)数据并行(data parallel)。即让每个机器里都有一个完整模型&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值