联邦学习全局模型融合
1. Ensemble Distillation for Robust Model Fusion in Federated Learning
NeurIPS 2020 —— FedDF
Tao Lin, Lingjing Kong, Sebastian U.Stich, Martin Jaggi
1.1 拟解决的问题
Toy Example: 在2个客户端单独训练的时候,都可以获得清晰的决策边界。直接用模型参数加权融合的方法在数据异质性存在情况下,决策边界不清晰,影响模型性能;用集成学习方法虽然可以获得清晰的决策边界,但是在客户端很多时模型规模过大。
1.2 采取的方法
利用参与联邦学习训练的local model进行aggregation初始化global model,然后再在公共数据集d上进行知识蒸馏。具体方法为计算
S
t
S_t
St 个local model输出向量的均值,计算其与global model输出向量的KL散度,从而拉近global model与ensemble model的距离。
1.3 启发
这篇文章的toy example举得很好,将注意力关注到了local model 和global model 的决策边界问题。当然可以发现这个例子主要是体现了分类器的区别(3层MLP模型),所以在存在卷积层特征提取器等的网络中,是否也存在蒸馏后会好于直接融合模型参数的情况?
同时,蒸馏的效果也非常依赖于公开数据集的选择,如果公共数据集是有偏的,未必能够做出比较好的效果。