Stanford 3: rTop-k: A Statistical Estimation Approach to Distributed SGD

本文同样来自stanford 组,不过他研究的是分布式学习中的weight compression and estimation problem.

问题建模

分布式统计参数估计

首先,我们考虑 NN 有 d d d 个参数, 他们服从分布 p θ p_\theta pθ. 总共有 n n n 个节点观测 p θ p_\theta pθ 每个节点得到一个 realization X n X_n Xn。 因此我们有
X 1 , X 2 , . . . , X n ∼ i.i.d. p θ X_1,X_2,...,X_n\overset{\text{i.i.d.}}{\sim} p_\theta X1,X2,...,Xni.i.d.pθ

Problem setup 是: 每个节点把自己的观测 X i X_i Xi 独立的编码为 k k k-bits
M i = Π i ( X i ) M_i=\Pi_i(X_i) Mi=Πi(Xi)
并发送给PS。而PS的目标是从 n k nk nk-bits M = ( M 1 , M 2 , . . . , M n ) M=(M_1,M_2,...,M_n) M=(M1,M2,...,Mn)中估计出 θ \theta θ 使得 worst case squared ℓ 2 \ell^2 2 risk 最小化:
inf ⁡ { Π i } , θ ^ sup ⁡ θ ∈ Θ E θ ∥ θ ^ ( M ) − θ ∥ 2 \inf_{\{\Pi_i\},\hat{\theta}}\sup_{\theta\in\Theta}\mathbb{E}_\theta\|\hat{\theta}(M)-\theta\|^2 {Πi},θ^infθΘsupEθθ^(M)θ2

即,我们需要联合设计 { Π i } \{\Pi_i\} {Πi} and θ ^ \hat{\theta} θ^.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值