查阅文章请点击
动机
- 用户网络连接可靠性低,且通信传输相对缓慢,即上行速率远低于下行速率,使得用户传输网络参数或梯度给服务器的通信效率成为联邦学习的信息瓶颈。
- 提高用户上行链路通信效率的解决办法:
- 结构化更新:直接从一个受限空间学习更新,用较少的变量进行参数化。
- ”草图“更新:学习一个完整的模型更新,压缩传输的网络参数或梯度,例如量化、随机旋转、子采样等。
优化方法
结构化更新
- 低秩梯度矩阵,固定
A
t
i
A_t^i
Ati,仅训练
B
t
i
B_t^i
Bti,显然
k
<
d
1
k<d_1
k<d1,可以节省
d
1
/
k
d_1/k
d1/k倍通信开销;
- 随机掩码,随机稀疏形式,掩码项置零,只更新非掩码项(非零梯度)。
”草图“更新
-
子采样:选择完整梯度矩阵的子矩阵(子集),通过聚合更新子矩阵,使得子矩阵的期望是完整梯度矩阵的无偏估计。
-
概率量化
①一位量化
量化结果 h ~ \widetilde{h} h 是 h h h的无偏估计,采用归一化概率将梯度矩阵量化至两种元素{ h m a x , h m i n h_{max}, h_{min} hmax,hmin};
②b位量化
将梯度矩阵按元素数值大小划分为b个区间,进而概率量化为边界。
概率量化局限性:若矩阵max=1,min=-1,矩阵元素大部分靠近0,若采用上述量化手段,则会导致可观误差;
解决思路:在量化
h
h
h之前,将
h
h
h与随机正交矩阵相乘,可以减少
O
(
∣
h
∣
/
l
o
g
∣
h
∣
)
O(|h|/log|h|)
O(∣h∣/log∣h∣)误差,可参考文章Distributed Mean Estimation with Limited Communication.
实验结果
- 低秩更新在顶部行,随机掩码更新在底部行;
- 迭代次数与精度的关系:随机掩码更新的效果好于低秩更新;
- 传输消息(梯度)大小与精度的关系:低秩和随机掩码更新明显好于原始方法。
- 相同情况下,采用随机旋转可以提高精度。
- 相同情况下,采用概率量化,伴随随机旋转可以提高模型收敛稳定性。