《Data-Free Knowledge Distillation for Heterogeneous Federated Learning》ICML 2021
最近出现了利用知识蒸馏来解决FL中的用户异构性问题的想法,具体是通过使用来自异构用户的聚合知识来优化全局模型,而不是直接聚合用户的模型参数。然而,这种方法依赖于proxy dataset,如果没有这proxy dataset,该方法便是不切实际的。此外,集成知识没有被充分利用来指导局部模型的训练,这可能反过来影响聚合模型的性能。
基于上述挑战,这篇文章提出了一种data-free知识蒸馏法来处理FL中的异构性问题,该方法称为FeDGen(Federated Distillation via Generative Learning)。其中服务器学习一个轻量级生成器,以data-free的方式集成用户信息,然后广播给用户,使用学习到的知识作为"归纳偏置"来调节局部训练。("归纳偏置"就是基于先验知识对目标模型的判断,将无限可能的目标函数约束在一个有限的假设类别之中)
文章简介
FeDGen学习一个仅从用户模型的预测规则导出的生成模型(在给定目标标签的情况下,该模型可以产生与用户预测的集合一致的特征表示)。该生成器随后被广播给用户,用从“潜在空间”(生成器产生的分布空间)采样得到的增广样本escort他们的模型训练(该潜在空间体现从其他对等用户提取的知识)。
给定一个比输入空间小得多的潜在空间,FeDGen所学习的生成器可以是轻量级的,给当前的FL框架带来最小的开销。
创新点
- 算法只从用户局部模型的预测层提取知识,不依赖于用户的其他数据。
- 不同于其他仅优化全局模型的方法,该算法使用提取的知识对局部模型施加归纳偏置,直接调节局部模型的更新,使模型在Non-IID下具备更好的泛化性能。
- 与现有技术相比,该方法通过更少的通信轮次却能产生具备更好泛化性能的全局模型。
算法理解
该文章讨论了一个用于监督学习的典型FL设置,即多类别分类的一般问题。
1、公式及符号定义
X ⊂ R p R^p Rp为样本空间,Z⊂ R d R^d Rd(d < p)为潜在的特征空间,T代表由X的数据分布D和真值标签函数c* : X → y 组成的域T := <D, C*>。(域T可以理解为用户端的任务T。)
模型参数θ := [ θ f θ^f θf, θ p θ^p θp]包含两个部分:一个是由 θ f θ^f θf参数化的特征提取器f : X→Z,另一个是由 θ p θ^p θp参数化的预测函数h : Z→ Δ y Δ^y Δ