Stanford 3: rTop-k: A Statistical Estimation Approach to Distributed SGD

Forforth

于 2021-02-22 11:00:06 发布

阅读量153

点赞数

分类专栏： paper reading

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lyn_S/article/details/113920798

版权

paper reading 专栏收录该内容

16 篇文章 3 订阅

订阅专栏

本文同样来自stanford 组，不过他研究的是分布式学习中的weight compression and estimation problem.

问题建模

分布式统计参数估计

首先，我们考虑 NN 有 $d$ 个参数, 他们服从分布 $p_\theta$ . 总共有 $n$ 个节点观测 $p_\theta$ 每个节点得到一个 realization $X_n$ 。因此我们有
$X_1,X_2,...,X_n\overset{\text{i.i.d.}}{\sim} p_\theta$

Problem setup 是: 每个节点把自己的观测 $X_i$ 独立的编码为 $k$ -bits
$M_i=\Pi_i(X_i)$
并发送给PS。而PS的目标是从 $n k$ -bits $M=(M_1,M_2,...,M_n)$ 中估计出 $\theta$ 使得 worst case squared $\ell^2$ risk 最小化:
$\inf_{\{\Pi_i\},\hat{\theta}}\sup_{\theta\in\Theta}\mathbb{E}_\theta\|\hat{\theta}(M)-\theta\|^2$

即，我们需要联合设计 $\{\Pi_i\}$ and $\hat{\theta}$ .

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Stanford 3: rTop-k: A Statistical Estimation Approach to Distributed SGD

本文同样来自stanford 组，不过他研究的是分布式学习中的weight compression and estimation problem.问题建模分布式统计参数估计首先，我们考虑 NN 有 ddd 个参数, 他们服从分布 pθp_\thetapθ. 总共有 nnn 个节点观测 pθp_\thetapθ 每个节点得到一个 realization XnX_nXn。因此我们有X1,X2,...,Xn∼i.i.d.pθX_1,X_2,...,X_n\overset{\text{i.i.d.}
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。