延迟补偿的异步随机梯度下降(ASGD with DC)

本文探讨了在深度学习中,由于ASGD的梯度延迟问题,提出了延迟补偿(DC)的ASGD算法。通过泰勒展开近似损耗函数的Hessian矩阵,DC-ASGD在CIFAR和ImageNet数据集上表现优于同步SGD和异步SGD,接近序列SGD的效果。
摘要由CSDN通过智能技术生成

摘要

随着深度学习快速发展,目前普遍使用大数据训练庞大神经网络。因为效率高,ASGD广泛使用,但是有梯度延迟的缺陷。这是因为当一个本地worker将梯度push到全局模型中时,可能这个全局模型已经被其他worker将梯度更新过了,这样本地worker push的梯度就是延迟的。因此本文提出补偿延迟的一个新技术,为了使ASGD更接近于SGD的优化效果。这是利用梯度函数的泰勒展开来有效逼近损耗函数的Hessian矩阵来实现的。通过在cifar和imagenet数据集上验证,实验结果显示,DC-ASGD性能优于同步SGD和异步SGD,几乎接近序列SGD的性能。

算法引入

本章节介绍dnn和其对应的通过ASGD进行并行训练。
给定一个多分类问题,X是输入空间,Y是输出空间,P是X,Y的联合分布。d代表X输入空间的维度,K指代输出空间的类别数。
根据分布P采样得到训练集{(x1,y1),…(xs,ys)},目标是通过训练集学习神经网络的参数w。具体来说,神经网络模型具有分层结构,其中每个节点在下层的连接节点上进行线性组合和非线性激活。参数是两层网络之间边上的权重。最后通过最小化经验损失函数得到参数。
当一个本地worker将梯度push到全局模型中时,可能这个全局模型已经被其他worker将梯度更新过了,这样本地worker push的梯度就是延迟的。如下图:

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值