论文笔记——Asynchronous Stochastic Gradient Descent with Delay Compensation

本文探讨了异步随机梯度下降(ASGD)算法及其在延迟补偿方面的局限性。通过引入DC-ASGD算法,我们解决了梯度延迟问题,并详细介绍了其更新规则。实验结果表明,在CIFAR-10和ImageNet数据集上,DC-ASGD相较于传统ASGD具有显著优势。
摘要由CSDN通过智能技术生成

论文笔记——Asynchronous Stochastic Gradient Descent with Delay Compensation

论文对ASGD算法进行了改进,对具有延迟的梯度设计了新的更新规则。

ASGD

下图为ASGD训练过程,梯度gt应该对应模型wt,但是由于延迟,在参数服务器接收到时,模型已经更新到了wt+τ,ASGD对于延迟的梯度不做处理。

论文利用泰勒展开,将梯度展开,尝试补偿延迟

部分则为hessian矩阵,因为参数数量过多,导致计算出精确的hessian矩阵会降低训练效率,所以文中提出了一种hessian近似器。

DC-ASGD算法

给出DC-ASGD算法更新规则:

客户端

服务器端

实验

在两个数据集上做了实验CIFAR-10 (Hinton, 2007) 和ImageNetILSVRC 2013 (Russakovsky et al., 2015).

原文见论文题目

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值