联邦学习中的知识蒸馏

最新推荐文章于 2025-02-01 08:02:58 发布

山科智能信息处理实验室

最新推荐文章于 2025-02-01 08:02:58 发布

阅读量2.9k

点赞数 5

文章标签：人工智能机器学习

原文链接：https://zhuanlan.zhihu.com/p/635427052

版权

引文

在个性化联邦学习[1]中，如果希望在各参与方（客户端）上学习个性化的模型，基于架构的方法有参数解耦和知识蒸馏两大类。

个性化联邦学习的四大类十小类解决方案来源： Towards Personalized Federated Learning

本文原论文： Knowledge Distillation for Federated Learning: a Practical Guide

简介：为什么需要在联邦学习中引入知识蒸馏

联邦学习 (FL) 已被提议作为基于云的深度学习 (DL) 的替代方案。这种范例将训练 DL 模型的能力与收集原始数据、交替在设备上计算和定期通信的需要分离开来 [34、4]。在学习过程中，联邦中的参与者只需要披露短暂的、本地处理的有效载荷，这使得推断个人的私人信息变得更加困难。

联邦平均 (FedAvg) 代表联邦学习 (FL) [34] 的基线算法。在 FedAvg 中，协作学习通过利用客户端-服务器范式以同步轮次进行。在每一轮开始时，服务器（或聚合器）将全局模型的当前参数广播给一小部分可用客户端（即参与者）。每个学习者在其私有数据上本地训练接收到的模型参数，并将更新发送回服务器（例如，接收到的模型参数与本地调整后的模型参数之间的差异）。服务器从联邦收集更新，并使用给定的策略（比如：在 FedAvg 的工作中，根据客户端持有的本地示例的数量，进行加权平均）聚合收集的贡献。然后将聚合更新作为“伪梯度”[37] 应用于全局模型。至此，新一轮的FL可以开始分发新版本的全局模型。

但是，参数平均聚合方案（例如 FedAvg）具有众所周知的限制。首先，这类算法意味着联邦之间的模型同质性，即每个客户端都被迫使用相同的神经架构，因为服务器直接合并客户端的更新（例如，通过加权平均）。当学习者联邦由具有异构硬件功能的客户端组成时，这可能是一个问题。此外，交换模型参数和模型更新具有很高的通信成本，这与模型参数的数量成比例——尽管已经提出了过多的策略来极大地改进以全局模型性能为代价的通信效率。此外，交换模型参数/更新会使客户端面临信息泄露，服务器必须知道客户端模型的体系结构和结构才能广播全局参数，这可能会导致知识产权问题（即联邦中的客户端不愿意共享他们正在使用的架构）。最后，但同样重要的是，当客户端持有异构数据时，本地模型在训练期间往往会彼此不同，并对私有示例进行微调（即客户端漂移）。因此，直接聚合模型参数/更新会降低全局模型性能。

本文重点回顾常规知识蒸馏（KD）的联邦适应（federated adaptations of regular Knowledge Distillation），这些适应已被用于缓解 FL 参数平均聚合方案的上述弱点。最初，基于 KD 的策略（也受到隐私属性 [35] 的激励）已经被引入以实现模型异质性，并通过交换模型输出和/或模型不可知的中间表示的方法，而不是直接传输模型，来降低过程的通信成本参数/模型更新。然后，提出了一组策略来通过服务器端集成蒸馏阶段增强 FedAvg 的聚合步骤，以实现模型异质性和/或在存在异构数据的情况下改进模型融合。最近，两个基于 KD 的工作重点是减轻客户模型漂移现象（这使得基于平均的聚合效率低下），要么在客户的目标函数中使用正则化项，要么在全局范围内利用学习无数据生成器[57]。

在本文中，我们在表格比较的帮助下，遵循问题-解决方案结构，回顾了当前关于 FL 中基于 KD 方法的文献。

知识蒸馏方法简述

具体内容可以参考深度学习中的知识蒸馏技术（上）

知识蒸馏 (KD) 方法旨在将知识从更大的深度神经网络（教师）转移到轻量级网络（学生）。在最简单的 KD 形式中，学生模型通过模仿（预训练的）教师模型在代理数据集 proxy dataset （也称为迁移集 transfer set）上的输出来学习。如果迁移集是有训练标签的（有监督的），学生模型可以使用两个损失函数的线性组合进行训练，

$L_{CE}$ 是真实标签y和软标签q之间的交叉熵损失，y真实标签是（例如，热编码）和类别概率，q软标签由学生神经网络预测得到。 $L_{KL}$ 是学生软标签和教师软标签之间的 Kullback-Leibler (KL) 散度。软标签通常由 logits 𝑧𝑖 产生（𝑧𝑖 是logits向量的第i个数值）通过softmax函数产生 $q_{\tau }\left ( i \right )=\frac{exp\left ( z_{i}/\tau \right )}{ \sum _{j}exp\left ( z_{j}/\tau \right )}$ ，温度系数τ控制概率分布的平滑程度。 𝑞𝑆 是通过将温度系数τ设为1得到的。λ用于控制两个损失函数的影响占比程度。

关于KD方法的分类和进展可以参考：

knowledge-distillation survey

知识蒸馏综述

联邦学习中的知识蒸馏

近年来，KD 在 FL 算法中的应用越来越多。在这篇评论文章中，我们根据 KD 的用途进行了主要区分，确定了两条主要工作路线：

1. 使用KD实现模型异质性的FL算法；

2. 使用KD来减轻数据异构性对全局模型性能的影响。

然后，我们根据这些目的的实现方式进一步构建审查。

与模型无关的 FL：

1.1 在FedAvg聚合阶段利用服务器端集成蒸馏的解决方案；

1.2 实现模型异质性的高效通信策略。通过交换本地计算的统计数据、模型输出和/或与模型无关的中间特征而不是模型参数。

减轻非独立同分布性引入退化性的策略：

2.1 通过蒸馏阶段改进 FedAvg 聚合的服务器端策略；

2.2 在本地提取全局知识以直接解决客户端漂移的客户端技术。

如果文本中没有特别说明，所审查的解决方案采用服务器-客户端范式（绝大部分联邦学习采用的范式），并实施同步协议，这些协议是轮流进行的。

1. 通过知识蒸馏实现模型无关的联邦学习 Model-agnostic FL via KD

通过在聚合步骤之上利用服务器端集成蒸馏，可以增强 FedAvg 的协议以实现模型异质性。为此，服务器可以维护一组原型模型，每个原型代表具有相同架构的所有学习者。从客户端收集更新后，服务器首先执行每个原型聚合，然后利用未标记的数据或综合生成的示例为每个接收到的客户端模型生成软标签。接下来，这些软标签被平均并用于微调每个聚合模型原型，在具有不同模型架构的客户端之间交换知识。实现模型异质性的替代可能解决方案包括利用共蒸馏的分布式自适应，而不是 FedAvg 等参数平均算法，如下所示。

1.1 共蒸馏的分布式适应 Distributed adaptations of co-distillation

此处审查的策略可以看作是共蒸馏 (co-distillation, CD) [3] 的分布式适应，这是在线 KD [14] 的一个实例。在 CD 中，学生和教师同时学习，教师知识由多个模型输出的集合形成。在 CD 的一般联邦适应中，每个客户在t轮充当学生，并将第 t-1 轮客户知识的集合视为教师知识。共享知识可以是不同类型的，就像在常规 KD 中一样，并且可以由本地数据模型输出的聚合统计集合、在公开可用数据集上计算的本地模型输出集合，或由以下集合表示：模型输出和与模型无关的中间特征。值得注意的是，客户端和服务器交换的是这些类型的信息，而不是模型参数。表1总结了共蒸馏的FL适应之间的比较。

表 1：比较通过共蒸馏的FL适应的实现模型异质性的策略。
D_k 表示通用客户端的本地私有数据集。D_p代表一个公共代理数据集。 (X_p, Y_p) 是公开的软标签数据集。
知识蒸馏所用知识的类型一列是受到[3]中分类的启发；基于响应的方法传达模型输出，基于特征的方法也共享中间表示，基于统计的方法披露本地数据上客户端模型输出的聚合统计数据（例如，每个标签的平均 logit 向量）。

1.1.1 （基于统计的KD）披露本地数据模型输出的汇总统计数据 Disclosing aggregated statistics of model outputs on local data.

FedDistill[21] 提出了一个开创性的基于蒸馏的基线方法。参与者定期仅传输在其私有数据集上计算的每个标签的平均软标签。反过来，服务器对这些张量进行平均，并生成每个标签的全局软标签，以便在下一轮广播。在本地训练时，客户使用每个标签的蒸馏项来规范他们的本地损失，该蒸馏项使用接收到的全局软标签作为教师的输出。后来在[44]中提出了类似的策略。值得注意的是，FedDistill 在基于参数的方案方面具有极高的通信效率。

1.1.2 （基于响应的KD）交换对代理数据的模型响应。Exchanging model responses on proxy data.

在这里，文献中的方法更加多样化，但算法步骤的一般框架如下：

广播：客户端接收当前的全局logits/软标签；
局部蒸馏：客户通过在代理数据集的一个子集上模仿接收到的全局logits/软标签来蒸馏它们的局部模型；
本地训练：客户根据本地数据微调蒸馏模型；
本地预测：客户在代理数据集上计算他们的本地logits/软标签；
聚合：服务器收集logits/软标签并聚合它们以产生更新的全局logits/软标签。

接下来，新一轮开始。

虽然部分解决方案使用服务器实体作为本地计算模型输出的聚合器 [26、20、6]，但最近的策略添加了 (6) 服务器蒸馏步骤以提取服务器端模型，可用于生成要广播的全局logits/软标签 [40、19、8]。当客户端部分参与时，学习服务器端模型可以改进训练过程 [40]。此外，考虑有标签或无标签的代理数据集会影响算法的设计。

FedMD [26] 在协议开始之前使用代理标签数据集对客户端执行初始预训练阶段。
Itahara等修改聚合步骤，提出熵减少聚合 (ERA)，证明在将 softmax 应用于聚合 logits 时使用低于 1 的温度会降低全局软标签的熵，并且有助于训练过程，尤其是在非 IID 设置中 [20]。
Compressed Federated Distillation (CFD) [40] 为基于量化和增量编码的软标签实现了一种极端有效的压缩技术，客户端和服务器在通信之前都应用了该技术。
Cronus [6] 通过直接对私有数据集和软标记公共数据集的联合（即串联）进行训练，合并了局部分解和局部训练步骤。Cronus 遵循 Diakonikolas 等人的方法聚合软标签[10] 以增强稳健性。
与 Cronus 类似，在 MATH [19] 中，客户端联合训练私有数据集、公共数据集和标记有全局软标签的公共数据集。MATH [19] 考虑了一个有标签的代理数据集，并通过在这样一个公共数据集与它的软标记版本的联合上对其进行训练来提炼其服务器模型。
FedGEM [8] 采用与 FedMD 相匹配的协议，另外通过类似于 CFD 的服务器模型对其进行增强。 FedGEM 的直觉是利用强大的模型服务器。
FedGEMS 是 FedGEM 的一个变体，它利用公共传输集中的标签来实施可以改善知识传输的选择和加权策略 [8]。

1.1.3 （基于中间特征的KD）Leveraging intermediate features.

FedAD [12] 还使用模型输出之外的中间特征来扩展基于响应的知识蒸馏。中间特征是与模型无关的注意力图 [43、32]，只要对注意力图形状达成共识，它仍然可以实现模型异质性。 FedAD 是一个一次性联邦学习框架，这意味着客户不必在每一轮开始时提取他们的本地模型，并且可以异步参与。
FedGKT [15] 在异步拆分学习范例[36]下使用中间特征。边缘设备训练由生成中间特征图的特征提取器和生成软标签的分类器组成的小型网络。同样，服务器利用更深层次的网络和分类器。在本地训练之后，对于每个本地示例，客户端传达他们计算的中间特征、预测的软标签和相关的真实标签。服务器将本地计算的提取特征作为其深层网络的输入，并生成全局软标签。客户端和服务器都使用常规交叉熵损失和基于 KD 的损失的线性组合作为目标函数。前者考虑软标签和真实标签，后者衡量本地和全局logits之间的差异。
FedDKC [48] 中实施了一个类似的框架，在此基础上，Wu 等人。还开发服务器端知识细化策略。

2. 通过知识蒸馏实现数据分布无关的联邦学习 Data-distribution-agnostic FL via KD

基于KD 的解决方案可用于在服务器端处理数据异质性，通过代理数据集 [30、39、7] 上的集成蒸馏或使用无数据生成器 [54、53]，纠正 FedAvg 的全局模型；或在客户端上，通过设备上的正则化器 [52、25、17、16] 或综合生成的数据[57] 提取全局知识，直接控制客户端漂移现象。

2.1 服务器端基于 KD 的全局模型调整 Server-side KD-based refinement of global model

FedDF[30] ，一种服务器端集成蒸馏方法，既可以实现模型异质性，又可以增强 FedAvg 的聚合。在 FedDF 中，全局模型经过微调，模仿代理数据集上客户模型输出的集合。
FedAUX [39] 提高了 FedDF [30] 的性能，利用对辅助数据的无监督预训练来为客户端特征提取器找到合适的模型初始化。此外，FedAUX 根据 (𝜀,𝛿) --differentially private每个参与者模型的差分隐私 [11] 确定性分数对代理数据的集成预测进行加权。
FedBE [7] 提出通过贝叶斯模型集成来组合客户端预测，以进一步提高聚合的稳健性，而不是平均模型预测。
虽然服务器端集成蒸馏方法假设存在代理数据集，但 FedFTG [54] 通过无数据知识蒸馏对全局模型进行服务器端改进，其中服务器对抗性地训练生成器模型和全局模型，并微调后者与合成数据。
[53]中还提出了一种基于无数据生成器的全局模型改进。

值得注意的是，服务器端全局模型校正与客户端控制模型漂移的方法正交，可以组合使用 [54]。

2.2 全局知识的局部蒸馏 Local distillation of global knowledge

2.2.1 通过正则化项进行局部-全局蒸馏。Local-global distillation via regularization term.

分别受到微调优化思想和持续学习研究的启发，最近的工作[25]和[52]发现基于局部 KD 的正则化是减少 FL 设置中非 IID 数据影响的有效方法。（[28、22、45、1]还提出了不使用 KD 的局部正则化策略）

在局部-全局蒸馏中，客户端的局部目标函数成为交叉熵损失和基于 KD 的损失之间的线性组合，该损失衡量全局模型输出（即教师模型的输出）与模型输出之间的差异本地模型在私有数据上的输出（即学生模型输出），例如通过Kullback-Leibler 散度。

图1 描述了通过正则化项进行局部-全局蒸馏的基本框架。这种框架的灵感是双重的。

图 1：在局部训练期间使用正则化项提取全局知识的方法概述。 D_k，是客户端k的私有数据集，x_i和y_i分别为数据样本i和对应的真实标签。w_t代表第 t 轮的全局模型。 w^k_{t+1} 代表本地模型。

在[52]中，Yao 等人借用来自 [50] 中工作的想法，其中，在非联邦学习设置中，自蒸馏机制被证明可以改进预训练模型（如BERT）的微调[9]。在自蒸馏中，来自过去快照 [51] 的知识，即在训练模型的先前训练步骤中产生的知识，有助于模型训练的当前步骤。
正交地，在Lee 等人[25]在持续学习研究中观察到类似于灾难性遗忘的现象：在存在异构数据的情况下，FedAvg 训练的全局模型对后续轮次之间的测试数据表现出不一致的预测（即，第 t+1 轮的全局模型显示在第 t 轮的全局模型正确预测的类上性能下降）。全局知识的局部蒸馏被证明可以减轻后续轮次中的遗忘，进而减轻数据异质性的危害 [25]。

2.2.2 通过正则化项进行局部-全局蒸馏：进一步改进 Local-global distillation via regularization term: further improvements

FedGKD [52] 使用了一组由M个历史全局模型集成的模型作为教师模型，继续使用KD作为本地训练的正则化项，FedGKD-VOTE 也被提议作为一种变体，它考虑了所有M个历史模型作为正则项 [52]。在 FedGKD 的最简单公式中，即M=1的情形中，通信成本与 FedAvg 相同，而对于 M > 1，服务器-客户端通信成本加倍，对于 FedGKD-VOTE，它按比例缩放为M倍。
FedNTD[25]局部地应用了图1中的框架，但在计算稍后馈送到基于KD的损失的Softmax分数时，忽略由真实类产生的logits。
受 Lukasik 等人的工作[33]启发， He等人[17]进一步观察到，在图1 的框架中，在特定分类类上利用不准确的全局模型（即不准确的教师）可能会误导局部训练。为了缓解这种现象，FedCAD 提出了一种类自适应权重来控制蒸馏的影响：当全局模型在某个类上准确时，局部模型从蒸馏知识中学习更多。 FedCAD 根据全局模型在辅助数据集上的性能确定类自适应权重，服务器逐轮广播此类信息以及模型参数。
FedSSD[16] 在本地训练中计算蒸馏项时，通过在实例级别考虑全局模型的可信度来扩展 FedCAD。
FedMLB[23] 还使用中间表示增强了局部-全局蒸馏，防止它们在局部微调期间偏离太大。为此，FedMLB 设计了由局部和全局子网络组成的混合路径，即局部网络块后跟不可训练的全局块。除了常规交叉熵外，局部学习还将混合路径的平均交叉熵和混合路径与主路径产生的输出之间的平均 KL 散度视为正则化项。由于通过混合路径进行反向传播，FedMLB 在本地引入了适度的计算开销。
FedDistill+，在 [52][57] 中用作替代基线方法，通过交换模型参数以及训练数据集上的每个标签本地 logits 来扩展 [21][44] 的工作。相对于图1的框架FedDistill+ 使用接收到的每个标签的全局平均 logits（而不是私有数据全局模型的输出）来计算 KD 损失。

2.2.3 通过无数据生成器模型进行局部-全局蒸馏。Local-global distillation via data-free generator models.

与本小节中的其他工作不同，FedGen [57] 学习了一个轻量级的服务器端生成器，它被逐轮分发给对其进行采样以获得增强训练示例的客户端，使用全局知识作为局部学习中的归纳偏差。为了构建生成器，FedGen 需要公开局部模型参数（至少是分类器权重）和局部标签计数。

现有方法比较和解决方案 Comparison of Existing Solutions and Adoption Guidelines

表2 列出了本文中审查的解决方案，根据它们的主要目标对其进行分类，并详细说明了每轮交换的信息类型、辅助数据的需求以及所涉及的KD类型。简而言之，表2 的主要内容是基于KD的FL解决方案，可以在某些方面增强协作学习，同时引入其他权衡以考虑适当的选择和采用。

表2：调查解决方案的简要概述。我们已经为所提出的解决方案的主要目的确定了 5 个可能的类别，即通信效率 (CE)、模型异质性 (MH)、非独立性 (NIID)、服务器端聚合 (A) 和客户端漂移 (CD) 。上传是指客户端到服务器的之间的链接。
符号说明：w 模型参数，z logits向量（softmax 之前的模型输出）， $\hat{Y}$ 软标签（softmax 之后的模型输出），Z 每个标签的平均logits向量，Y 局部数据标签，H 中间特征图，A注意力图， $\alpha _{y}$ 每类自适应权重，C' 可信度矩阵，c 局部标签计数。对于最后一列，基于正则化器的方法使用 KD 对局部训练进行正则化，基于生成器的方法利用生成器模型，蒸馏意味着通过模仿教师在公共数据上的输出来吸收知识。

通过知识蒸馏实现模型无关的联邦学习 Model-agnostic FL via KD。共蒸馏的联邦适应可以实现模型异质性并且可以降低通信需求，但相对于基于参数的方案来说，代价是计算开销。因此，尽管通信效率极高，但由于客户端蒸馏的开销（在表2 中，在客户端使用蒸馏的解决方案），可能并不总是可以在资源受限的设备上部署此类算法，同时适合跨数据中心cross-silo设置的与模型无关的替代方案（例如，在[42]中，在局部训练之前，使用来自公共数据集的80000个数据点蒸馏设备上的模型）。

此外，这类解决方案通常比基于FedAvg的基线表现更差（就全局模型准确性而言）[39]——尽管它们通常会提高非协作训练的表现[20]。此外，该类别中的大多数作品都假设存在语义相似的代理数据集（在某些情况下甚至有标签），这在某些部署场景和用例（例如，对于特定的医疗应用程序）中可能是一个不切实际的假设。 [21] 中开创性的通信高效无数据策略不会产生本地计算开销，但它远未达到与 FedAvg 相当的全局模型测试精度，如 [57] 中所示，还公开了可能的隐私敏感信息私人数据（即每个标签模型输出）。 [15, 48] 等解决方案支持模型异质性，通常比 FedAvg 更有效地通信，并且通过采用拆分学习范式和利用基于 KD 的正则化，在联邦中包括资源受限的设备。然而，如表2 所示，由于它们的拆分学习方法，[15、48] 中的解决方案公开了局部真实标签，这可能再次导致侵犯隐私。虽然最近在文献 [2] 中出现了一些开创性的努力，但在理论上对基于模型不可知的 KD 协作学习策略知之甚少，因此需要分析基于参数的方案所发生的收敛特性 [46]。

通过知识蒸馏实现数据分布无关的联邦学习 Data-distribution-agnostic FL via KD。对于与解决非独立同分布性的解决方案相关的内容，基于KD 的服务器端优化策略（例如 [30、39、7]）可以在语义相似的无标签代理数据可用时在存在高度异构数据的情况下提高 FedAvg 全局模型性能。值得注意的是，当在通信轮次之间执行多个本地 epoch 并且客户端模型倾向于分开时，此类算法表现出最大的改进。无数据生成器模型也可用于执行服务器端全局模型校正，如 [54] 或限制客户端直接在参与设备上漂移，如 [57]，在这两种情况下都以披露本地标签计数为代价。无需从客户那里披露额外的信息，甚至不需要代理数据，这些解决方案通过在本地数据上使用全局模型输出来规范本地训练，如 [52、25] 中所示。此外，这组策略不会引入显著的设备上计算开销，并且具有与 FedAvg 相同的通信要求（如果 FedGKD [52] 仅将当前的全局模型视为其历史模型）。如果有限的有标签代理数据可用，则可以像 [17、16] 中那样改进局部全局知识蒸馏。当适度的计算开销是可持续的时，可以通过使用[23]中的中间特征和混合路径来增强局部全局蒸馏，从而在存在高度异构数据的情况下显著提高 FedAvg 全局模型的性能。

结论

虽然最初引入共蒸馏的分布式适应作为降低类似FedAvg算法的通信成本和实现模型异质性的手段，但最近探索了 KD 来解决非 IIDness，要么纠正 FedAvg 的聚合阶段，要么直接限制客户端漂移。本文通过根据目的和实现方式对 FL 进行分类，回顾和比较了最先进的基于 KD 的 FL 技术。我们相信，所呈现的比较可以为该领域的研究人员和从业者提供有关现有解决方案的主要优缺点的实用指南，以及根据应用案例选择最合适技术的实用指南用于确定在不久的将来仍然开放的研究挑战。

注：

这篇文章较为全面的总结了当前联邦学习中知识蒸馏的各种策略，给出了在FL场景中使用KD的两个主要目的（进行模型异构或减轻全局数据的NonIID特性），较为全面的列举了近几年的各种KD+FL方法，也做了对比。美中不足的是，似乎并未在理论角度进行更深入的讨论，也没有建立一个统一的场景比对各种KD+FL方法的性能，定性描述比较模糊，缺乏定量实验。另外，这篇文章应用了综述[3]中提到的分类法对各种KD方法进行了描述，但似乎没有触及KD及其近几年其他变体的讨论，有些遗憾。

References

[1] D. A. E. Acar, Y. Zhao, R. M. Navarro, M. Mattina, P. N. Whatmough, and V. Saligrama (2021) Federated learning based on dynamic regularization. arXiv preprint arXiv:2111.04263.
[2] A. Afonin and S. P. Karimireddy (2021) Towards model agnostic federated learning using knowledge distillation. arXiv preprint arXiv:2110.15210.
[3] R. Anil, G. Pereyra, A. Passos, R. Ormandi, G. E. Dahl, and G. E. Hinton (2018) Large scale distributed neural network training through online distillation. arXiv preprint arXiv:1804.03235.
[4] P. Bellavista, L. Foschini, and A. Mora (2021) Decentralised learning in federated deployment environments: a system-level survey. ACM Computing Surveys (CSUR) 54 (1), pp. 1–38.
[5] C. Buciluǎ, R. Caruana, and A. Niculescu-Mizil (2006) Model compression. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 535–541.
[6] H. Chang, V. Shejwalkar, R. Shokri, and A. Houmansadr (2019) Cronus: robust and heterogeneous collaborative learning with black-box knowledge transfer. arXiv preprint arXiv:1912.11279.
[7] H. Chen and W. Chao (2020) Fedbe: making bayesian model ensemble applicable to federated learning. arXiv preprint arXiv:2009.01974.
[8] S. Cheng, J. Wu, Y. Xiao, and Y. Liu (2021) Fedgems: federated learning of larger server models via selective knowledge fusion. arXiv preprint arXiv:2110.11027.
[9] J. Devlin, M. Chang, K. Lee, and K. Toutanova (2018) Bert: pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
[10] I. Diakonikolas, G. Kamath, D. M. Kane, J. Li, A. Moitra, and A. Stewart (2017) Being robust (in high dimensions) can be practical. In International Conference on Machine Learning, pp. 999–1008.
[11] C. Dwork, A. Roth, et al. (2014) The algorithmic foundations of differential privacy. Foundations and Trends® in Theoretical Computer Science 9 (3–4), pp. 211–407.
[12] X. Gong, A. Sharma, S. Karanam, Z. Wu, T. Chen, D. Doermann, and A. Innanje (2021) Ensemble attention distillation for privacy-preserving federated learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 15076–15086.
[13] I. J. Goodfellow, M. Mirza, D. Xiao, A. Courville, and Y. Bengio (2013) An empirical investigation of catastrophic forgetting in gradient-based neural networks. arXiv preprint arXiv:1312.6211.
[14] J. Gou, B. Yu, S. J. Maybank, and D. Tao (2021) Knowledge distillation: a survey. International Journal of Computer Vision 129 (6), pp. 1789–1819.
[15] C. He, M. Annavaram, and S. Avestimehr (2020) Group knowledge transfer: federated learning of large cnns at the edge. Advances in Neural Information Processing Systems 33, pp. 14068–14080.
[16] Y. He, Y. Chen, X. Yang, H. Yu, Y. Huang, and Y. Gu (2022) Learning critically: selective self-distillation in federated learning on non-iid data. IEEE Transactions on Big Data.
[17] Y. He, Y. Chen, X. Yang, Y. Zhang, and B. Zeng (2022) Class-wise adaptive self distillation for heterogeneous federated learning.
[18] G. Hinton, O. Vinyals, and J. Dean (2015) Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531.
[19] L. Hu, H. Yan, L. Li, Z. Pan, X. Liu, and Z. Zhang (2021) MHAT: an efficient model-heterogenous aggregation training scheme for federated learning. Information Sciences 560, pp. 493–503.
[20] S. Itahara, T. Nishio, Y. Koda, M. Morikura, and K. Yamamoto (2020) Distillation-based semi-supervised federated learning for communication-efficient collaborative training with non-iid private data. arXiv preprint arXiv:2008.06180.
[21] E. Jeong, S. Oh, H. Kim, J. Park, M. Bennis, and S. Kim (2018) Communication-efficient on-device machine learning: federated distillation and augmentation under non-iid private data. arXiv preprint arXiv:1811.11479.
[22] S. P. Karimireddy, S. Kale, M. Mohri, S. J. Reddi, S. U. Stich, and A. T. Suresh (2019) SCAFFOLD: stochastic controlled averaging for on-device federated learning. arXiv preprint arXiv:1910.06378.
[23] J. Kim, G. Kim, and B. Han (2022) Multi-level branched regularization for federated learning. In International Conference on Machine Learning, pp. 11058–11073.
[24] J. Konečnỳ, H. B. McMahan, F. X. Yu, P. Richtárik, A. T. Suresh, and D. Bacon (2016) Federated learning: strategies for improving communication efficiency. arXiv preprint arXiv:1610.05492.
[25] G. Lee, Y. Shin, M. Jeong, and S. Yun (2021) Preservation of the global knowledge by not-true self knowledge distillation in federated learning. arXiv preprint arXiv:2106.03097.
[26] D. Li and J. Wang (2019) FedMD: heterogenous federated learning via model distillation. arXiv preprint arXiv:1910.03581.
[27] Q. Li, Y. Diao, Q. Chen, and B. He (2022) Federated learning on non-iid data silos: an experimental study. In 2022 IEEE 38th International Conference on Data Engineering (ICDE), pp. 965–978.
[28] T. Li, A. K. Sahu, M. Zaheer, M. Sanjabi, A. Talwalkar, and V. Smith (2018) Federated optimization in heterogeneous networks. arXiv preprint arXiv:1812.06127.
[29] X. Li, K. Huang, W. Yang, S. Wang, and Z. Zhang (2019) On the convergence of fedavg on non-iid data. arXiv preprint arXiv:1907.02189.
[30] T. Lin, L. Kong, S. U. Stich, and M. Jaggi (2020) Ensemble distillation for robust model fusion in federated learning. Advances in Neural Information Processing Systems 33, pp. 2351–2363.
[31] Y. Lin, S. Han, H. Mao, Y. Wang, and B. Dally (2018) Deep gradient compression: reducing the communication bandwidth for distributed training. In International Conference on Learning Representations,
[32] W. Liu, R. Li, M. Zheng, S. Karanam, Z. Wu, B. Bhanu, R. J. Radke, and O. Camps (2020) Towards visually explaining variational autoencoders. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 8642–8651.
[33] M. Lukasik, S. Bhojanapalli, A. K. Menon, and S. Kumar (2021) Teacher’s pet: understanding and mitigating biases in distillation. arXiv preprint arXiv:2106.10494.
[34] H. B. McMahan, E. Moore, D. Ramage, S. Hampson, et al. (2016) Communication-efficient learning of deep networks from decentralized data. arXiv preprint arXiv:1602.05629.
[35] N. Papernot, M. Abadi, U. Erlingsson, I. Goodfellow, and K. Talwar (2016) Semi-supervised knowledge transfer for deep learning from private training data. arXiv preprint arXiv:1610.05755.
[36] M. G. Poirot, P. Vepakomma, K. Chang, J. Kalpathy-Cramer, R. Gupta, and R. Raskar (2019) Split learning for collaborative deep learning in healthcare. arXiv preprint arXiv:1912.12115.
[37] S. Reddi, Z. Charles, M. Zaheer, Z. Garrett, K. Rush, J. Konečnỳ, S. Kumar, and H. B. McMahan (2020) Adaptive federated optimization. arXiv preprint arXiv:2003.00295.
[38] A. Reisizadeh, A. Mokhtari, H. Hassani, A. Jadbabaie, and R. Pedarsani (2020) Fedpaq: a communication-efficient federated learning method with periodic averaging and quantization. In International Conference on Artificial Intelligence and Statistics, pp. 2021–2031.
[39] F. Sattler, T. Korjakow, R. Rischke, and W. Samek (2021) Fedaux: leveraging unlabeled auxiliary data in federated learning. IEEE Transactions on Neural Networks and Learning Systems.
[40] F. Sattler, A. Marban, R. Rischke, and W. Samek (2021) Cfd: communication-efficient federated distillation via soft-label quantization and delta coding. IEEE Transactions on Network Science and Engineering.
[41] F. Sattler, S. Wiedemann, K. Müller, and W. Samek (2019) Robust and communication-efficient federated learning from non-iid data. IEEE transactions on neural networks and learning systems.
[42] F. Sattler, S. Wiedemann, K. Müller, and W. Samek (2019) Sparse binary compression: towards distributed deep learning with minimal communication. In 2019 International Joint Conference on Neural Networks (IJCNN), pp. 1–8.
[43] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra (2017) Grad-cam: visual explanations from deep networks via gradient-based localization. In Proceedings of the IEEE international conference on computer vision, pp. 618–626.
[44] H. Seo, J. Park, S. Oh, M. Bennis, and S. Kim (2020) Federated knowledge distillation. arXiv preprint arXiv:2011.02367.
[45] N. Shoham, T. Avidor, A. Keren, N. Israel, D. Benditkis, L. Mor-Yosef, and I. Zeitak (2019) Overcoming forgetting in federated learning on non-iid data. arXiv preprint arXiv:1910.07796.
[46] J. Wang, Z. Charles, Z. Xu, G. Joshi, H. B. McMahan, M. Al-Shedivat, G. Andrew, S. Avestimehr, K. Daly, D. Data, et al. (2021) A field guide to federated optimization. arXiv preprint arXiv:2107.06917.
[47] X. Wu, X. Yao, and C. Wang (2020) FedSCR: structure-based communication reduction for federated learning. IEEE Transactions on Parallel and Distributed Systems 32 (7), pp. 1565–1577.
[48] Z. Wu, S. Sun, Y. Wang, M. Liu, and Q. Liu (2022) Exploring the distributed knowledge congruence in proxy-data-free federated distillation. arXiv preprint arXiv:2204.07028.
[49] J. Xu, W. Du, Y. Jin, W. He, and R. Cheng (2020) Ternary compression for communication-efficient federated learning. IEEE Transactions on Neural Networks and Learning Systems.
[50] Y. Xu, X. Qiu, L. Zhou, and X. Huang (2020) Improving bert fine-tuning via self-ensemble and self-distillation. arXiv preprint arXiv:2002.10345.
[51] C. Yang, L. Xie, C. Su, and A. L. Yuille (2019) Snapshot distillation: teacher-student optimization in one generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 2859–2868.
[52] D. Yao, W. Pan, Y. Dai, Y. Wan, X. Ding, H. Jin, Z. Xu, and L. Sun (2021) Local-global knowledge distillation in heterogeneous federated learning with non-iid data. arXiv preprint arXiv:2107.00051.
[53] L. Zhang and X. Yuan (2021) Fedzkt: zero-shot knowledge transfer towards heterogeneous on-device models in federated learning. arXiv preprint arXiv:2109.03775.
[54] L. Zhang, L. Shen, L. Ding, D. Tao, and L. Duan (2022) Fine-tuning global model via data-free knowledge distillation for non-iid federated learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10174–10183.
[55] Y. Zhao, M. Li, L. Lai, N. Suda, D. Civin, and V. Chandra (2018) Federated learning with non-iid data. arXiv preprint arXiv:1806.00582.
[56] X. Zhou, X. Lei, C. Yang, Y. Shi, X. Zhang, and J. Shi (2022) Handling data heterogeneity in federated learning via knowledge fusion. arXiv preprint arXiv:2207.11447.
[57] Z. Zhu, J. Hong, and J. Zhou (2021) Data-free knowledge distillation for heterogeneous federated learning. In International Conference on Machine Learning, pp. 12878–12889.