深度梯度压缩:降低分布式训练的通信带宽
文章地址:https://arxiv.org/pdf/1712.01887.pdf
本文针对移动设备分布式训练
AB:大规模分布式训练需要使用通信带宽,带宽限制了多节点训练的可伸缩性,并且需要昂贵的高带宽网络基础结构,在移动设备的分布式训练中,这会导致更高的延迟,以及间歇性的不良连接。
我们发现分布式SGD中99.9%的梯度交换是多余的,并提出了深度梯度压缩(DGC)以大大减少通信带宽。
DGC采用四种方法:动量校正,局部梯度修剪,动量因子掩蔽和热身训练。
在这些情况下,深度渐变压缩可实现从270x到600x的梯度压缩比,而不会降低精度,将ResNet-50的梯度大小从97MB减小到0.35MB,而DeepSpeech的梯度大小从488MB减小到0.74MB。这有利于移动设备的分布式训练。
IN:
在训练中,通过增加节点的数量并利用数据并行性可以显著减少在相同大小训练集上进行前向后的总计算时间,但是!梯度交换的成本很高。网络带宽成为了扩展分