Personalized Cross-Silo Federated Learning on Non-IID Data
一、目的
这篇文章被AAAI2021接收。由于联邦学习存在数据non-iid分布,论文认为单一全局模型无法适合所有client,因此采用个性化联邦学习,为每个client提供个性化的模型。
二、方法
1、个性化联邦学习目标:
2、解决个性化联邦学习
(1)提出一般方法
-
改写上图(1)中的目标:
-
对(2)中的 A \mathcal{A} A 进行梯度下降优化
-
采用邻近点算法来更新 W k W^k Wk
(2)FedAMP
- 对
U
i
k
U^k_i
Uik矩阵,整理
u
i
k
\mathbf{u^k_i}
uik有
可以看出 u i k \mathbf{u^k_i} uik 是 w 1 k − 1 , . . . , w m k − 1 \mathbf{w^{k-1}_1}, ..., \mathbf{w^{k-1}_m} w1k−1,...,wmk−1 的线性组合,通俗的说,这样做使节点i集合了其他节点的权重信息。
- 根据注意传递函数 A A A的的定义,可知 A ′ A' A′是非负非递增的,因此 ∥ w i k − 1 − w j k − 1 ∥ 2 \|\mathbf{w^{k-1}_i}-\mathbf{w^{k-1}_j}\|^2 ∥wik−1−wjk−1∥2 越小, A ′ ( ∥ w i k − 1 − w j k − 1 ∥ 2 ) A'(\|\mathbf{w^{k-1}_i}-\mathbf{w^{k-1}_j}\|^2) A′(∥wik−1−wjk−1∥2) 越大, A ′ A' A′是一个相似度函数。这样,我们根据 u i k \mathbf{u^k_i} uik的定义,可以看到,越相似的节点,对彼此的权重越高,影响越大。
由此形成了联邦训练过程中的正反馈,相似节点成对协作,加速收敛。
(3)HeurFedAMP
FedAMP的一种启发式方法,论文引用相关文献说明在维度很高的情况下,用欧几里得距离来测量两者的差异并不那么有效。
因此,HeurFedAMP重新定义了权重:
即,两者参数的余弦相似度更大,则权重更大,协作更多。
余弦相似度在评价高维模型参数间的相似度时比欧氏距离更具有鲁棒性。
三、总结
这篇文章的思想和算法不难看懂,亮点在于用理论去得到算法,有很扎实的理论基础,很有说服力。