联邦学习——用data-free知识蒸馏处理Non-IID

本文链接：https://blog.csdn.net/weixin_42534493/article/details/118853830

《Data-Free Knowledge Distillation for Heterogeneous Federated Learning》ICML 2021
最近出现了利用知识蒸馏来解决FL中的用户异构性问题的想法，具体是通过使用来自异构用户的聚合知识来优化全局模型，而不是直接聚合用户的模型参数。然而，这种方法依赖于proxy dataset，如果没有这proxy dataset，该方法便是不切实际的。此外，集成知识没有被充分利用来指导局部模型的训练，这可能反过来影响聚合模型的性能。
基于上述挑战，这篇文章提出了一种data-free知识蒸馏法来处理FL中的异构性问题，该方法称为FeDGen(Federated Distillation via Generative Learning)。其中服务器学习一个轻量级生成器，以data-free的方式集成用户信息，然后广播给用户，使用学习到的知识作为"归纳偏置"来调节局部训练。("归纳偏置"就是基于先验知识对目标模型的判断，将无限可能的目标函数约束在一个有限的假设类别之中)

文章简介

FeDGen学习一个仅从用户模型的预测规则导出的生成模型(在给定目标标签的情况下，该模型可以产生与用户预测的集合一致的特征表示)。该生成器随后被广播给用户，用从“潜在空间”（生成器产生的分布空间）采样得到的增广样本escort他们的模型训练(该潜在空间体现从其他对等用户提取的知识)。
给定一个比输入空间小得多的潜在空间，FeDGen所学习的生成器可以是轻量级的，给当前的FL框架带来最小的开销。

创新点

算法只从用户局部模型的预测层提取知识，不依赖于用户的其他数据。
不同于其他仅优化全局模型的方法，该算法使用提取的知识对局部模型施加归纳偏置，直接调节局部模型的更新，使模型在Non-IID下具备更好的泛化性能。
与现有技术相比，该方法通过更少的通信轮次却能产生具备更好泛化性能的全局模型。

算法理解

该文章讨论了一个用于监督学习的典型FL设置，即多类别分类的一般问题。

1、公式及符号定义

X ⊂ $R^p$ 为样本空间，Z⊂ $R^d$ (d < p)为潜在的特征空间，T代表由X的数据分布D和真值标签函数c* : X → y 组成的域T := <D, C*>。（域T可以理解为用户端的任务T。）
模型参数θ := [ $θ^f$ , $θ^p$ ]包含两个部分：一个是由 $θ^f$ 参数化的特征提取器f : X→Z，另一个是由 $θ^p$ 参数化的预测函数h : Z→ $Δ^y$