![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
sxx01
这个作者很懒,什么都没留下…
展开
-
Sparsified SGD with Memory 论文阅读
1 Introduction随机梯度下降算法(SGD)的迭代过程为:其中gt\mathbf{g}_tgt是对于梯度的无偏估计,即E[gt]=∇f(xt)\mathbb{E}[\mathbf{g}_t]=\nabla f(\mathbf{x}_t)E[gt]=∇f(xt).SGD算法可以加快计算的过程,但无法加快通信过程.在分布式机器学习环境中,通信问题是限制其发展的关键因素.为了解决这个问题,可以对求解出来的梯度进行压缩操作,使用comp(g)comp(\mathbf{g})comp(g)来代原创 2020-06-27 16:35:19 · 1357 阅读 · 0 评论 -
A Convergence Analysis of Distributed SGD with Communication-Efficient Gradient Sparsification 论文阅读
1 Introduction随机梯度下降的更新流程为其中x∈Rnx\in \mathbb{R}^nx∈Rn为模型参数,我们可以给定包含PPP个工作节点的集群来加快训练的过程,其中第ppp个节点计算得到的更新为Gp(xt)G^p(x_t)Gp(xt),更新过程修改为这种同步的随机梯度下降算法称为S-SGD.理想情况下训练的速度可以加快了P倍,但由于受到通信条件的限制,并不能实现这么高的速度,因此提出了梯度稀疏化来加快通信过程,更新过程修改为考虑到不同节点的非零元素坐标可能是不一样的,因此在原创 2020-06-26 19:25:28 · 474 阅读 · 0 评论 -
Robust and Communication-Efficient Federated Learning From Non-i.i.d. Data 论文阅读笔记
1 Introduction联邦学习的训练过程包括设备下载模型,本地训练模型,将训练得到的模型更新或者模型发送到服务端进行聚合.传输数据的比特数为2 Challenge在介绍压缩传输数据量的方法前,我们首先介绍会在联邦学习压缩传输数据方面的挑战.数据分布之间的不平衡和non-iid数量极大的客户端参数服务器进行聚合部分客户端参与电力和存储受限因此,用于联邦学习的通信压缩算法需要满足以下要求:R1:同时压缩上传和下载数据量R2:可适用于不平衡\non-iid的数据分布R3:可适用于原创 2020-06-25 21:54:20 · 3202 阅读 · 2 评论 -
TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning 论文阅读
问题描述及算法考虑下图所示的分布式机器学习架构.我们用ttt表示迭代训练的次数,NNN代表节点的数量,工作节点iii计算得到的梯度向量为gt(i)\mathbf{g}^{(i)}_tgt(i),输入的样本为zt(i)\mathbf{z}^{(i)}_tzt(i).为了能够进一步实现压缩,在训练过程中中央服务器并不保存模型,每个工作节点都保存一个模型副本,计算得到梯度后由中央服务器进行聚合,将得到的梯度也进行量化后发送到每个工作节点,由工作节点本地进行模型更新.工作节点在进行梯度上传的时候对梯度原创 2020-06-24 10:58:35 · 874 阅读 · 0 评论 -
Gradient Sparsification for Communication-Efficient Distributed Optimization 阅读笔记
文章目录摘要1 Introduction2 Algorithm2.1 数学模化2.2 稀疏化算法2.3 编码策略3 稀疏性的理论保证4 总结摘要现代大规模机器学习应用程序要求在分布式计算体系结构上实现随机优化算法,一个关键瓶颈是在不同worker之间交换信息(例如随机梯度)的通信开销。 在本文中,为了降低通信成本,我们提出了一种凸优化公式,以最小化随机梯度的编码长度。 关键思想是随机删除随机梯度向量的坐标,并适当地放大其余的坐标,以确保稀疏的梯度无偏。为了有效地解决最优稀疏性问题,提出了一种简单快速的近原创 2020-06-03 22:25:34 · 805 阅读 · 0 评论