Kai Yue , Graduate Student Member, IEEE, Richeng Jin Chau-Wai Wong , Member, IEEE, and Huaiyu Dai, Member, IEEE, , Fellow, IEEE
2022
IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS (SCI 1区/CCF B 期刊)
作者阅读本文目的:近期研究FL领域的量化方法,阅读本篇论文目标是熟悉文章中的量化过程;至于文章另一部分对拜占庭问题的研究以及理论分析证明,作者将于后期涉猎
一、动机和贡献
动机:
之前的算法没有同时考虑FL中的通信开销(communication overhead )、学习可靠性(learning reliability)以及部署效率的(deployment efficiency)的问题。
贡献:
- 提出了一种名为 FedVote 的算法:在client端利用二元/三元量化梯度信息;并在sever端利用weighted vote进行聚合,从而解决拜占庭问题
- 从理论分析和实证明了FedVote的有效性
- 在cross-silo情景下,扩展FedVote为Byzantine-FedVote,在牺牲一部分算力的情况下对拜占庭问题具有更好的抵抗性
二、算法
作者认为本文与之前量化文章不同之处为:**添加latent weight vector h \mathbf{h} h **
联邦学习的总目标为:
w ∗ = arg min w ∈ D n d 1 N ∑ j = 1 N l ( w ; ( x j , y j ) ) \mathbf{w}^*=\arg\min_{\mathbf{w}\in \mathbb{D}_n^d}\frac{1}{N}\sum_{j=1}^N l(\mathbf{w};(\mathbf{x}_j,\mathbf{y}_j)) w∗=argw∈DndminN1j=1∑Nl(w;(xj,yj))
本文通过优化 latent weight vector h ∈ R d \mathbf{h}\in\mathbb{R}^d h∈Rd来解决上述问题。本质思路是:
- client先进行正常的本地更新,得到更新后的梯度 h \mathbf{h} h ;然后对其进行归一化normalize操作,得到归一化梯度 w ~ \tilde{\mathbf{w}} w~;对归一化梯度进行量化,得到量化后梯度 w \mathbf{w} w;最后client将其上传给server端。
- sever端进行vote操作,并将结果下发client。
单层流程示意图如下:
使用归一化函数是 tanh ( ⋅ ) \tanh(\cdot) tanh(⋅)。
算法总流程图为:
三、实验
E. Normalization Funtion
对于归一化函数
φ
(
x
)
=
tanh
(
a
x
)
\varphi(x)=\tanh(ax)
φ(x)=tanh(ax),本文探索了
a
∈
{
0.5
,
1.5
,
2.5
,
10
}
a\in\{0.5,1.5,2.5,10\}
a∈{0.5,1.5,2.5,10},20轮实验后实验结果如下:
得出的结论为:随着 a a a 的增加,归一函数的线形域减少,导致收敛速度变慢。