Exploring the Practicality of Federated Learning——探索联邦学习的实用性：从通信角度进行的调查

本文链接：https://blog.csdn.net/Together_CZ/article/details/144323403

联邦学习（Federated Learning, FL）是一种分布式机器学习方法，旨在通过多个参与设备（如智能手机、物联网设备等）协作训练模型，同时保持数据本地化，从而保护用户隐私。以下是对联邦学习的详细介绍：

1. 基本概念

联邦学习的核心思想是让多个参与设备在不共享原始数据的情况下，共同训练一个全局模型。每个设备使用其本地数据进行模型训练，并将训练后的模型更新（通常是模型参数的梯度或权重）发送给中央服务器。中央服务器聚合这些更新，生成一个新的全局模型，再将这个模型分发给所有参与设备。这个过程不断迭代，直到全局模型收敛。

2. 主要优势

数据隐私保护：数据保留在本地设备上，不进行集中存储和传输，从而减少了数据泄露的风险。
数据多样性：由于数据分布在多个设备上，全局模型能够从多样化的数据中学习，提高模型的泛化能力。
减少通信开销：与传统的集中式学习相比，联邦学习减少了数据传输的频率和量，降低了通信成本。
支持异构设备：联邦学习能够适应不同设备上的计算能力和存储资源，支持异构设备的参与。

3. 工作流程

联邦学习的基本工作流程如下：

初始化：中央服务器初始化全局模型的参数，并将这些参数分发给所有参与设备。
本地训练：每个参与设备使用其本地数据对全局模型进行训练，生成本地模型更新。
模型更新上传：设备将本地模型更新（如梯度或权重）上传到中央服务器。
全局模型聚合：中央服务器聚合所有设备的模型更新，生成新的全局模型。
模型分发：中央服务器将新的全局模型分发给所有参与设备。
迭代训练：重复步骤2到5，直到全局模型收敛。

4. 通信效率

尽管联邦学习在数据隐私和多样性方面具有显著优势，但其通信开销是一个主要挑战。频繁的模型更新上传和下载会导致高通信成本，尤其是在网络带宽有限或设备数量庞大的情况下。为了提高通信效率，研究者提出了多种方法，包括：

减少通信轮数：通过增加本地训练的迭代次数或使用正则化技术来减少通信轮数。
减少参与客户端数量：通过选择性地选择参与设备或动态调整参与设备的数量来减少通信开销。
模型压缩：使用量化、稀疏化、因式分解和联邦蒸馏等技术来减少模型更新的传输量。

5. 去中心化FL架构

为了进一步减少对中央服务器的依赖，研究者提出了去中心化的FL架构，如分层FL和点对点FL：

分层FL：设备首先在本地或边缘服务器上进行部分聚合，然后再将聚合结果发送到中央服务器，从而减少通信负担。
点对点FL：设备之间直接通信，不依赖中央服务器，通过点对点网络进行模型更新和聚合。

6. 应用场景

联邦学习在多个领域具有广泛的应用前景，包括：

移动设备：个性化推荐、语音识别和图像分类等任务。
医疗保健：疾病预测、患者数据分析和药物研发等。
物联网：智能家居、智能城市和工业物联网等。
金融：欺诈检测、信用评分和个性化金融服务等。

7. 未来方向

为了进一步推动联邦学习的发展，研究者提出了多个未来方向，包括：

混合通信策略：结合集中式和去中心化方法的优势，优化通信效率。
动态客户端参与和任务分配：根据设备能力和网络条件动态调整参与设备和任务分配。
联邦迁移学习：利用预训练模型或从其他设备转移的知识，减少通信需求。
通信高效模型架构：设计轻量级模型架构和参数共享技术，减少模型更新的传输量。
边缘云协作：利用边缘和云资源进行高效模型聚合和分发。
隐私保护通信技术：使用安全多方计算和同态加密等技术，保护数据隐私。
标准化和基准测试：建立标准化基准和评估指标，促进FL算法的比较和改进。

联邦学习通过在多个设备上分布式训练模型，同时保持数据本地化，显著提高了数据隐私保护和模型泛化能力。尽管面临通信开销的挑战，通过多种通信高效方法和去中心化架构，联邦学习在多个领域展示了广阔的应用前景。未来研究将进一步优化通信效率和隐私保护，推动联邦学习的实际应用。这篇文章主要探讨了联邦学习（Federated Learning, FL）在实际部署中的通信效率问题。文章首先介绍了FL的基本概念和其在数据隐私保护方面的优势，但也指出了其在通信开销方面的挑战。随后，文章详细分析了影响FL通信效率的多个因素，包括通信轮数、参与客户端数量和网络负担等。文章进一步讨论了现有的通信高效FL方法，分为三类：减少通信轮数的方法（如正则化和聚合校正）、减少参与客户端数量的方法（如贪婪选择和随机选择），以及减少网络负担的方法（如量化、稀疏化、因式分解和联邦蒸馏）。此外，文章还介绍了去中心化FL架构，如分层FL和点对点FL，以减少对中央服务器的依赖。最后，文章提出了未来研究方向，包括混合通信策略、动态客户端参与和任务分配、联邦迁移学习、通信高效模型架构、边缘云协作、隐私保护通信技术和标准化与基准测试。文章强调了通信效率对FL实际部署的重要性，并呼吁跨学科合作以解决FL在通信方面的多方面挑战。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

摘要

联邦学习（FL）是一种有前景的范式，通过在分布式设备上进行模型协作训练而不集中数据，显著提升了隐私保护和去中心化的机器学习。然而，FL系统的实际部署面临一个重大瓶颈：频繁地在大量设备和中央服务器之间交换大型模型更新导致的通信开销。这种通信低效性会阻碍训练速度、模型性能以及整体上现实世界FL应用的可行性。在本调查中，我们研究了在通信高效的FL中采取的各种策略和进展，突出了它们的影响和克服FL系统固有通信挑战的潜力。具体而言，我们定义了通信效率的衡量标准，分析了FL系统中通信低效的来源，并提供了一个分类法和最新的通信高效FL方法的综合回顾。此外，我们讨论了增强FL系统通信效率的有前景的未来研究方向。通过解决通信瓶颈，FL可以有效应用于需要隐私保护、去中心化机器学习的各种应用，如物联网、医疗保健或金融。

1 引言

联邦学习（FL）是机器学习领域的一项重大进展，引入了以数据隐私和去中心化处理为重点的模型。与数据集中化的标准机器学习方法不同，FL允许在各种设备上训练算法，同时保持数据本地化。这在需要高数据隐私的领域尤为有用，如医疗保健和金融。在FL中，数据在源头处理，只共享模型更新，减少了数据传输和存储的风险。这种方法允许多样化的数据集，捕捉现实世界的变异，而无需集中数据。FL的去中心化性质提高了隐私和安全性，并支持开发更个性化和相关的模型。因此，FL在各种应用中越来越受欢迎，包括改善移动设备体验和提供更个性化的医疗保健，标志着机器学习中安全高效数据使用的关键进步。FL的流行和研究近年来显著增加，这一点从过去几年的出版物数量呈指数增长中可以看出。这一趋势如图1.b所示，展示了自2016年FL诞生以来到2023年1的出版物数量的指数增长。

Footnote 1: 数据来源于Google Scholar，筛选了自2016年以来同时包含“联邦学习”和“机器学习”的文章。文章必须同时包含这两个术语才能被计入总数，以避免其他领域包含“联邦学习”的文章。引文和专利被排除在外。每年的计数是根据查询返回的结果数量手动记录的。

FL面临一个重大挑战：通信低效性。这源于参与设备之间网络条件和设备能力的可变性。频繁地在这些多样化的设备之间传输大型模型更新会形成瓶颈，影响训练速度和可行性。本质上，通信成本超过了计算成本，阻碍了FL的整体效率，并限制了其在现实世界应用中的实用性[106]。

关注通信效率的第一个驱动因素是网络带宽的固有限制，特别是在涉及大量边缘设备（如智能手机和物联网设备）的场景中。在传统的FL设置中，客户端设备和中央服务器之间频繁交换模型更新可能会迅速成为瓶颈，特别是在处理大规模模型或在带宽有限的网络上操作时。这一挑战进一步加剧

图1：(a) 标准FL系统工作流程：客户端设备根据其私有数据训练模型，并将训练后的权重上传到中央服务器，服务器聚合所有权重并将结果发送回客户端。(b) 每年在Google Scholar上包含“联邦学习”和“机器学习”的文章数量。

当考虑FL应用的全球扩展时，网络可靠性和速度可能会有显著差异。第二个因素是FL模型的可扩展性。随着FL在越来越复杂和数据密集的领域（如医疗保健、自动驾驶车辆和智慧城市）中找到应用，模型在大型分布式网络上有效和高效运行的需求变得至关重要。在这种背景下，可扩展性涉及处理大量设备，并确保FL过程在通信负载和数据传输成本方面是稳健和高效的。最后，算法在通信效率方面的进展发挥了关键作用。许多技术已成为减少FL过程中传输数据大小的关键解决方案，如正则化（Wang et al., 2017）、客户端选择（Zhang et al., 2016）、量化（Wang et al., 2017）和稀疏化（Li et al., 2018）等。这些技术在传输必要信息的同时最小化模型精度的损失，从而使FL在带宽受限的环境中既可行又实用。

总之，通信高效的FL的关注点回应了在规模化部署FL时的实际限制和挑战。通过解决这些挑战，通信高效的FL增强了FL在各种应用中的可行性，并确保去中心化学习的优势可以在广泛的现实场景中实现。本调查旨在深入探讨通信高效FL领域的不同策略和进展，突出其影响和克服FL系统固有通信障碍的潜力。

我们调查与相关先前工作的简要比较如表1所示。特别是，本文提出了以下贡献：

我们总结了当前关于FL实用性的研究以及阻碍FL在现实中广泛部署的挑战，特别是通信开销。
我们对现有的FL设备部署框架进行了客观的回顾和比较，主要集中在通信管理和效率上。
我们讨论了FL中通信低效的来源，包括通信频率、通信网络限制、客户端本地计算和参与客户端数量。
我们提供了一个从系统角度构建的通信高效FL方法的全面且最新的分类法。
我们从文献回顾和实证结果中提供了有价值的见解和教训。这些发现揭示了增强高性能和通信高效FL方法开发的潜力方向。

本调查的结构如图2所示。第2节简要描述了FL的概念和通信开销。第3节讨论了用于实验的开源FL框架。第4节调查了当前的通信高效FL方法并提供了一个新颖的分类法。第5节概述了去中心化FL架构。第6节提供了讨论和未来方向。最后，第7节总结了我们的工作。

表1：相关调查的比较。

2 背景和预备知识

为了全面理解本调查中提出的概念，本节首先提供了FL的动机、概述和两种不同实现的传统FL系统的工作流程。然后，它强调了FL中的通信过程，如何定量评估通信开销，以及影响FL系统通信成本的关键因素。

从集中学习到FL

物联网（IoT）和人工智能（AI）的融合，通常被称为人工智能物联网（AIoT），近年来已成为一个显著趋势。这导致了更智能、更互联和更高效的系统。物联网的互联设备网络产生了大量数据，AI处理这些数据以进行智能决策、自动化和预测分析。这种结合已经改变了各个行业，包括医疗保健、制造业、智慧城市和消费电子产品。最初，大多数与物联网集成的AI系统，特别是那些与物联网集成的系统，依赖于集中学习模型。在这种框架下，从各种物联网设备收集的数据被传输到中央服务器，在那里执行学习算法。这种方法有几个局限性：

数据隐私和安全：集中学习要求将数据从设备传输到中央服务器，这引发了关于数据隐私和安全的重大担忧。在敏感部门（如医疗保健）中，这可能是一个关键问题。
网络和带宽限制：传输大量数据可能非常占用带宽，并可能导致网络拥塞，特别是在物联网设备数量增加的情况下。
延迟：在需要快速决策的场景（如自动驾驶车辆）中，将数据发送到中央服务器并接收指令的延迟可能是一个问题。
可扩展性：随着设备数量的增加，集中系统可能难以有效处理不断增加的数据量。

为了缓解其中一些问题，引入了分布式学习模型，其中学习过程直接在物联网设备上进行。然而，这些模型也有其缺点：

有限的计算资源：许多物联网设备处理能力有限，这限制了可以在其上运行的学习模型的复杂性和有效性。
学习的不一致性和隔离性：在个别设备上孤立学习可能导致不一致且非泛化的模型，因为每个设备仅从其数据中学习。
数据多样性和数量问题：个别设备上的有限数据可能阻碍模型有效学习的能力，因为AI模型通常需要大量和多样化的数据集。

FL作为解决集中和分布式学习模型所面临挑战的解决方案而出现。在FL中，学习模型在多个去中心化设备或服务器上进行训练，这些设备或服务器持有本地数据样本，而不交换它们。这一概念有几个优点：

隐私和安全：由于数据保留在设备上，FL显著增强了隐私和安全性，解决了集中学习的主要缺点之一。
带宽的高效利用：FL减少了通过网络传输大型数据集的需求，节省了带宽。
降低延迟：FL可以通过在本地处理数据来促进更快的决策，这对于实时应用至关重要。
可扩展性和灵活性：FL可以扩展到大量设备，使其适应各种部门和应用。
改进的数据利用：FL允许从更广泛的数据中学习，而无需数据集中化，从而产生更健壮和泛化的模型。

FL是一个可行的解决方案，它结合了集中和分布式系统的优势，同时解决了它们的关键挑战。FL的引入标志着AIoT行业的一个重大飞跃，为AIoT技术提供了增强的隐私、效率和可扩展性。下一小节将介绍FL的基础知识及其基本实现。

FL概述

FL的关键思想是允许K个分布式客户端在不共享其私有数据的情况下协作训练ML模型，从而保护参与方的数据隐私。具体而言，考虑的目标函数被表述为：

上述传统的FL系统被称为集中式FL或基于云的FL拓扑，涉及中央服务器协调整个训练过程。其他高级的去中心化FL拓扑将在后面的章节中讨论。

通信开销和评估

如上所述，与将分散数据集中到一个中心并训练通用模型的传统ML不同，FL在客户端本地训练模型，并定期在客户端和服务器之间交换模型参数而不是原始数据。这种参数交换过程，包括参数提交和分发，在FL中被定义为通信过程，并产生显著的开销，直接与通信轮数成正比。当参与客户端数量增加和存在网络条件限制时，这种开销更加明显，导致高功耗和额外的电信费用[26, 107]。因此，评估和最小化FL中的通信开销是一个不可避免的目标。

为了定量评估FL中的通信开销，在整个FL过程中，客户端和服务器之间提交和分发时间的总和，称为，以秒为单位，被广泛使用[8, 21]。值得注意的是，是一个对硬件功率和其他隐含因素敏感的指标。必须创建一个公平的环境，以便使用此指标比较不同的系统和方法。除了总时间量外，由于不敏感性，提交和分发的参数总大小，称为，以字节为单位，也被用来评估通信开销。这些指标的正式定义如下：

通信低效的来源

FL中产生的通信开销在现有研究文献中已被充分记录为FL部署的核心挑战[10, 48]。为了提出克服这一挑战的解决方案，需要具体识别导致通信开销的主要来源及其起源。通过查看方程（2）中的指标定义，我们逻辑上推导出FL中通信开销的三个主要来源，包括通信轮数T、每轮参与客户端数K和网络负担，分别由size(→S,⋅)和size(S→,⋅)表示。

表2.1提供了FL中各种因素导致通信低效的综合视图。通信轮数T受所选FL算法的影响，是影响通信成本和的主要因素。通信网络限制是硬件影响的主要因素，因为物理网络基础设施是设计FL系统时必须考虑的关键瓶颈。每轮参与客户端数K与T类似，由所选算法确定，是影响通信成本的主要因素。服务器计算和客户端计算被认为是次要意义的因素，计算能力和压力是关键问题，主要受硬件影响。最后，训练模型规模是一个主要因素，与T和K类似，由算法确定。

3 FL编程框架

通信在FL中是繁琐的，尤其是在客户端在无线环境中协作的现实设置中。近年来，由于编程工具和框架的快速发展，这一过程得到了更高效和安全的管理，促进了FL在实践中的可行性。在本节中，我们首先客观地回顾了代表性的开源FL框架，主要集中在它们如何管理客户端和服务器之间的通信过程。然后，我们进一步进行了一组紧凑的实验，以在物联网环境中实际比较它们的性能。

自2017年FedAvg[66]引入以来，FL已成为过去五年中AI增长最快的领域之一，这一点从大量研究出版物中可以看出。为了实现这一成功，早期引入的编程框架如TensorFlow Federated2和PySyft[128]发挥了重要作用。然而，这些初始框架仅支持在单台机器上模拟FL系统，这并不反映现实设置。因此，近年来引入了更多高级框架，支持设备部署，这是FL在实践中可行性的最重要功能。在这里，我们选择了一组可用的框架进行客观回顾，从而为从业者和研究人员在框架选择上提供有意义的建议。首先，我们只选择那些与描述其架构设计的研究文章一起发布的框架。因此，由于缺乏透明解释，著名的PaddleFL3被排除在外。接下来，我们使用GitRank分数[32]根据代码质量和可维护性对剩余的框架进行排名，选择了前五名中的七个。因此，由于得分最低，OpenFL[78]和FLUTE[25]被排除在列表之外。表III显示了所选的代表性框架和详细的定性比较。

Footnote 2: https://www.tensorflow.org/federated

Footnote 3: GitHub - PaddlePaddle/PaddleFL: Federated Deep Learning in PaddlePaddle

根据表III中观察到的GitRank分数[32]，FedML[33]在代码质量和可维护性方面领先，其次是Flower[11]，这可能归因于更长的开发和维护周期。在可用性功能方面，虽然所有选定的框架都为用户提供了详细的代码示例和教程，但只有Flower[11]提供了全面的API文档，这对于以研究为目的的自定义至关重要，而FedScale[54]、NVFlare[81]和FederatedScope[110]提供的帮助有限。所有五个框架都支持在物联网设备（如Raspberry Pi和NVIDIA Jetson设备）上进行FL系统。同时，只有FedML[33]和Flower[11]支持移动后端和软件开发工具包（SDK），用于在Android和iOS操作系统智能手机上实际开发FL。此外，FedScale[54]声称其对基于iOS的智能手机的支持正在开发中，即将推出。

从后端角度来看，我们观察到gRPC4，一种由Google开发的RPC版本，是现有框架中采用的最常见的通信协议，除了FedML[33]，它采用了MPI协议。gRPC（Google开发的远程过程调用）是一种基于请求-回复模型的协议，客户端发送请求以执行服务器上的特定过程。它专门设计用于低带宽移动连接。相反，MPI（消息传递接口）基于消息传递模型，进程通过显式发送和接收消息进行通信，主要设计用于计算机和集群内的并行处理。根据其通信协议的功能，我们可以得出结论，尽管其他框架旨在支持大规模设备之间的FL，但FedML[33]最初是针对跨部门FL构建的。值得注意的是，尽管最初采用了MPI协议，但FedML[33]最近支持了其他各种协议，如MQTT（消息队列遥测传输）甚至gRPC，以满足不同连接性能的需求，为用户提供了独特的灵活性，以应对各种场景。除了通信协议外，Flower[11]和NVFlare[81]是两个通过使用带有CA（证书颁发机构）证书的TLS（传输层安全）协议增强通信安全的框架。

4 通信高效的FL方法

近年来，提高FL中通信效率的研究领域得到了广泛探索，提出了多种解决方案。在本节中，我们广泛调查了文献，并根据其解决讨论的低效来源的目标，对最先进的方法进行了分类，包括通信轮数T、参与客户端数K和网络负担，分别由size(→S,⋅) 和size(S→,⋅) 表示。在每个类别中，根据解决方案中使用的方法而不是其特征进行全面分类。最后，在一个物联网环境中对代表性方法进行了实证基准测试，以更好地理解各自的类别。为了便于导航，图1展示了我们对这一研究领域的分类。

减少通信轮数

偏好本地更新是减少客户端和服务器之间通信频率的自然解决方案。然而，这种解决方案会导致客户端漂移问题，损害全局模型性能，特别是在非IID数据场景下。如图2所示，客户端漂移是指客户端模型随着时间的推移偏离或偏离全局模型的现象，导致全局模型的优化出现“漂移”[86]。因此，该类别中的方法通常旨在解决这一相关问题，可以分为两大组，即正则化和聚合校正。此外，我们还涵盖了一个新兴的研究方向，该方向旨在仅在一次通信轮中学习全局模型，理想情况下最小化通信开销。

4.1.1 偏好本地更新

正则化。以下方法在本地经验风险中实施可变正则化项，根据不同的假设和观察，对客户端模型进行正则化，以克服客户端漂移问题。简单来说，Li等人[59]引入了FedProx，它在参数空间中对远离全局模型的客户端模型进行惩罚。这是通过同时优化本地经验风险和客户端模型参数与最新全局模型参数之间的欧几里得距离来实现的。FedProx在理论和实验上已被证明比FedAvg具有更好的性能和收敛性。然而，由于最小化的不精确性，FedProx并没有将本地平稳点与全局平稳点对齐。受此启发，Acar等人[2]提出附加一个基于精确最小化的额外项，以确保本地最优值与全局经验风险的平稳点渐近一致。同时，Charteros等人[14]以另一种方式推广了FedProx，在层基本别上捕捉本地和全局模型的差异。由于正则化是按层应用的，而不是像FedProx那样对所有参数应用，因此在本地训练期间，只有那些偏离全局模型的层的参数会发生变化，而其他参数不受影响。与在参数空间中惩罚距离不同，Li等人[57]基于一个直观的假设，即在整体数据集上训练的全局模型可以比在偏斜子集上训练的本地模型学习更好的表示，在表示空间中约束客户端的本地训练。具体来说，MOON被引入使用对比损失[50]来减少本地模型学习的表示与全局模型学习的表示之间的距离，并增加本地模型学习的表示与先前本地模型学习的表示之间的距离。基于相同的假设，Kim等人[51]在模型架构的多级块中优化本地和全局模型学习的表示之间的Kullback-Leibler散度，而不是像MOON那样仅在最后一层。超越基于距离的观点，Lee等人[55]依赖于FL中的遗忘视图[88]，并观察到本地分布之外的知识在本地训练中容易遗忘，这与客户端漂移问题密切相关。然后，FedNTD被引入，利用知识蒸馏（KD）技术[36]来保留本地数据的全球视角，但仅针对非真实类。有确凿的证据表明，本地数据中的非真实logits包含足够的知识来防止遗忘，同时避免本地经验风险的崩溃。此外，Wu等人[109]最近提出了一种独特的处理非IID数据的方法，考虑了本地训练时的全局数据分布。基于此，FedNP被提出通过辅助任务增强本地训练任务，该任务明确估计潜在的全局数据分布，稳定本地训练过程，其中采用概率神经网络将这种分布映射到全局模型分布，从而通过避免陷入本地数据分布来正则化本地模型。尽管通过期望传播算法[67]促进辅助任务，FedNP被设计为可微分的，从而实现高效和可扩展的方法。

聚合校正。与对等组中的方法在本地训练期间正则化客户端模型不同，该组中的方法旨在校正全局模型聚合步骤。首先，Wang等人[100]指出，客户端漂移问题是由于客户端之间本地更新次数的不一致性，这是由于本地数据量和计算资源的差异。因此，FedNova被引入，在更新全局模型之前，根据其本地更新次数对本地模型进行归一化和缩放，以确保生成的全局模型不被偏置。尽管仅略微修改了FedAvg，FedNova在理论和实验上已被证明提高了性能和收敛性。从另一个角度来看，Hsu等人[39]在服务器上使用动量技术来控制全局模型的移动进度，从而防止客户端模型快速发散。这是通过首先在广义形式FedOpt[77]中重写FedAvg，如算法4.1中彻底形式化，将本地更新视为“伪梯度”，并在全局模型聚合中使用单独的服务器学习率来实现的。全局动量应用于这些“伪梯度”，类似于著名的优化算法（如SGD）中的动量。此外，Reddi等人[77]在FedOpt中进一步采用先进的自适应优化器（如AdaGrad和Adam）来建立FedAdaGrad和FedAdam。此外，许多工作[103, 108]以不同的方式显著改进了FedAdaGrad和FedAdam的适应性。虽然所有这些方法都专注于自适应调整客户端学习率，但Jhunjhunwala等人[45]指出，服务器学习率对FedOpt的收敛有显著影响，然后推导出客户端向全局最优值进展的时间变化界限[74]，并展示了如何使用该界限在每轮中估计一个好的服务器学习率。结果是一种新颖的方法，FedExP，它根据该轮中的“伪梯度”自适应地确定每轮的服务器学习率。同样基于FedOpt，Yu等人[115]最近披露，上述方法在处理深度神经网络时表现不佳，因为它们的非凸性。有趣的是，现有方法在深度神经网络中的失败并不是均匀分布在各层上的，早期层学习有用的特征，而最终层未能利用这些特征。利用这一发现，TCT被引入首先使用FedOpt常规训练深度模型以提取有用的特征，然后使用其经验神经切线核[42]计算深度模型的凸近似，并使用校正方法训练最终模型。TCT可以被视为一个附加层，使先前的方法在超参数方面显著更快和更稳定。

4.1.2 一次性更新

一次性更新FL最近作为一种减少通信开销的有前景的方向出现，它允许中央服务器在一次通信轮中学习全局模型。一次性FL的其他动机是，在某些场景（如模型市场[98]）中，传统的多轮FL是不切实际的，频繁通信对系统被攻击的风险很高[80]。在这个方向上，Guha等人[29]是先驱，他们在一次轮次完成后通过简单地平均每个模型的预测来构建客户端模型的集成学习。由于利用了集成学习，这种初始方法不需要服务器进行训练，可以应用于任何ML模型。随后，Li等人[58]提出了一种新的具有辅助公共数据集支持的一致投票策略来增强集成。然而，鉴于“许多可能比所有更好”的原则[126]，服务器并不总是选择所有可用的客户端模型进行集成的最有效策略。因此，Wang等人[101]专注于集成选择问题，并找到最佳的客户端模型子集进行集成以获得全局模型，改进了初始方法。具体来说，DeDES被引入，通过在客户端模型之间进行聚类并根据本地验证分数或训练数据量在每个聚类中选择代表元素来确保集成的多样性。除了基于集成学习的方法外，Kasturi等人[49]依赖于另一种方法，利用单次通信轮以另一种方式而不是简单地训练本地模型，应用统计技术将客户端的数据压缩为紧凑信息并传输到服务器。然后，服务器使用紧凑信息生成合成数据集以训练全局模型。此外，Zhou等人[125]采用先进的数据蒸馏技术[102]更准确地压缩客户端的数据，建立了DOSFL。尽管展示了有希望的结果，这些基于数据的方法将压缩的客户端数据发送到服务器，导致额外的通信开销和潜在的隐私泄露。为了规避这一限制，Zhang等人[121]提出了一种新颖的两阶段方法，DENSE，可以在不共享额外信息或依赖任何辅助数据集的情况下合成全局模型的训练数据集。在第一阶段，DENSE利用客户端模型的集成来训练生成器，该生成器在第二阶段生成合成数据集以进行训练。DENSE在第二阶段使用集成和生成的数据集来训练全局模型。最近，Heinbaugh等人[35]利用条件变分自编码器[90]来增强数据集生成过程。更具体地说，提出了两种FedCVAE变体，它们使用客户端解码器进行集成或紧凑聚合以获得全局解码器。然后，全局解码器创建数据集以训练全局分类器。由于FedCVAE仅共享客户端解码器，因此似乎比其他相关方法更高效。

讨论。在本小节中，我们讨论了克服偏好本地更新时客户端漂移问题的最先进解决方案。正则化和聚合校正是文献中广泛探索的两种主要方法。然而，两者都有其局限性。虽然正则化方法复杂化了本地训练任务，从而在客户端上创建了额外的内存占用和计算瓶颈，但聚合校正方法要求服务器执行更多的计算，而不仅仅是聚合全局模型。最后，新兴的方向一次性更新由于其潜在的理想最小化通信开销而获得了更多关注。表1比较了现有一次性FL方法的特征。当前方法基于集成学习或服务器端训练，给服务器带来了沉重的计算负担。特别是，后者对中央服务器被攻击的风险很高（Kasu等人，2017；Krizhevsky等人，2019）。这些讨论的问题为未来在减少通信轮数方面的研究提供了许多挑战和机会。

减少参与客户端数量

FL中的客户端选择策略决定了哪些客户端参与FL模型的每轮训练。Fu等人（Fu等人，2020）进行了一项全面的调查，深入探讨了这一问题，涵盖了十五种方法及其处理系统和数据异质性的方法。本节综合了与（Fu等人，2020）中相交的方法，确定了共同主题，并将它们组织成子类别：贪婪选择（第4.2.1节）、随机选择（第4.2.2节），包括无偏选择（第4.2.2节）和有偏选择（第4.2.2节）。

客户端选择从根本上解决了客户端数据分布、计算能力和网络连接异质性的问题。这些异质性方面可能导致收敛缓慢、模型准确性偏斜和公平性问题。通过战略性地选择可用客户端的子集，客户端选择通过多样化的数据贡献提高模型准确性，通过避免较慢的客户端加速训练，并通过选择具有足够计算和网络资源的客户端提高效率。

4.2.1 贪婪选择

FL中的贪婪选择方法根据每轮训练中的特定标准动态选择客户端。这些方法根据数据质量、计算速度或网络连接等指标优先选择“最佳”客户端。然而，这种方法可能会牺牲客户端的全面参与和公平性。

FedMCCS[1]通过在客户端选择过程中纳入多个标准扩展了FedCS协议。该论文提出了一种双层优化方案，在考虑其异质性和有限的通信和计算资源的情况下，高效地选择并最大化每轮FL中参与的客户端数量。该方法使用基于样本大小和模型相似性的分层抽样来过滤可用客户端，并实施基于多个标准（包括CPU、内存、能量和时间）的高效客户端选择算法。FedMCCS确保只有具有足够资源和能力的客户端被选中参与FL过程，减少了训练任务失败和丢弃学习轮次的风险，这可能影响模型准确性。这种整体方法旨在平衡快速收敛、模型性能以及公平和广泛参与的必要性。

相比之下，尽管FedCS和FedMCCS主要关注基于资源的客户端选择，可能导致偏见，但DivFL强调客户端选择的多样性。一般来说，贪婪选择提供了一种直观且明确的优化FL训练的方法。然而，在FedCS和FedMCCS中优先选择资源更好的客户端可能会更有效地利用可用资源，尽管可能以公平性和代表性为代价。

4.2.2 随机选择

与贪婪选择根据预定义标准选择最佳客户端批次不同，随机选择在过程中引入随机性，可能增加参与者池的多样性和鲁棒性。这些方法分为无偏和有偏方法。无偏选择不偏袒任何特定客户端，旨在确保公平代表性。另一方面，有偏选择（包括基于重要性的方法和基于深度强化学习（DRL）的技术）根据各种标准有目的地偏向预期提供最大战略价值的客户端。

无偏选择。分层抽样[23]旨在通过选择客户端以确保更平衡的数据分布代表性来增强训练过程的代表性和稳定性。该技术根据模型相似性或样本大小将客户端分组为集群，然后从每个集群中选择一个代表性子集进行训练。分层抽样有效地减少了客户端聚合权重的方差，基于样本大小和模型相似性采用两种聚类方法。这导致代表性显著提高，特别是在非IID和不平衡场景中，稳定性和收敛质量显著提高。分层抽样减少了方差，比标准抽样方法实现了更快的收敛。它还提高了FL训练的代表性和稳定性，而不会对客户端端施加额外负担，并且可以无缝集成到标准FL框架中。为了实现无偏性，聚类算法设计为根据特定标准对客户端进行分组，并从每个集群中选择一个代表性子集进行训练。此选择过程旨在确保所选子集准确代表所有客户端数据的多样性和分布，从而减少训练过程中的偏见。

相比之下，尽管分层抽样通过平衡数据分布关注代表性和稳定性，但OCS强调基于更新重要性的通信效率和最优抽样。

有偏选择。在这里，我们讨论了基于优先级选择方法的两个主要子类别：基于重要性的方法和基于深度强化学习（DRL）的方法。表2显示了这一子类别的概述，并突出了每种方法旨在解决的FL异质性类型。客户端可用性大致分为系统异质性。

优先级选择。我们将首先讨论优先级选择方法，这些方法使用某些优先级标准随机选择客户端。基于Mitzenmacher[68]的负载平衡策略，Cho等人表明，他们基于重要性的客户端选择方法Power-of-Choice（π个客户端。其次，将当前全局模型发送给候选集中的客户端，并计算并发送回其本地损失。最后，从候选集中选择具有最高本地损失的mm个客户端，随机平局，这些选定的客户端在下一轮中参与训练。该论文还介绍了π

Wang等人提出了联邦图采样（FedGS）方法[104]，以解决任意客户端可用性下的偏差和不稳定性挑战。FedGS提出了一种同时稳定全局模型更新和减轻长期偏差的解决方案，考虑到任意客户端可用性。该方法构建了一个数据分布依赖图（3DG）来模拟客户端之间的数据相关性，确保采样的客户端数据保持较远。该图有助于改进对最优模型更新的近似。该方法涉及最小化客户端采样次数的方差，同时通过引入与采样客户端数据分布远距离相关的约束来确保稳定的模型更新。FedGS方法的主要步骤包括构建3DG以捕捉客户端本地数据分布的相关性，解决优化问题以选择具有平衡客户端采样计数的客户端，并利用3DG在任意客户端可用性下稳定模型更新和减轻长期偏差。

除了使用DDQN，Zhang等人[123]还将多智能体强化学习（MARL）应用于FL客户端选择。虽然FAVOR主要关注在非IID数据上更快收敛，但FedMarl通过同时优化模型性能和通信成本来解决训练效率问题。在FedMarl中，每个客户端设备由中央服务器上的MARL代理表示。这些代理根据当前状态（包括准确性改进、处理和通信延迟等指标）决定客户端参与。FedMarl中的奖励函数反映了测试准确性、处理延迟和通信成本的变化，指导MARL代理做出最优客户端选择决策。FedMarl表明，训练有素的MARL代理在不同架构和数据集上具有很高的泛化能力，无需重新训练。此外，代理的策略可以直接从实验中推断出来，表明代理在训练准确性和处理延迟之间取得了平衡，选定的客户端数量在不同训练阶段有所不同。此外，FedMarl根据准确性、延迟和成本等目标的相对重要性调整其行为。调整奖励函数中的权重可以导致不同的客户端选择算法，表明FedMarl的灵活性，以适应特定应用的需求。

强化学习是一种有效的方法，可以替代人类直觉来解决优化问题。基于DRL的客户端选择方法是一个新兴且有前途的领域，已成功减少了FL的通信。然而，未来基于DRL的方法仍需考虑一些方面。例如，DDQL模型的训练依赖于单个客户端，这可能阻碍代理的快速收敛，而MARL由于使用多个代理而计算量更大。

讨论。在本小节中，我们探讨了一系列旨在优化FL训练过程和减少所需通信轮数的客户端选择方法。这些方法可以大致分为两组：贪婪选择和随机选择。贪婪选择方法提供了一种针对特定指标优化训练的直观启发式方法。相比之下，随机选择方法更公平地选择客户端，以增强FL系统的鲁棒性。尽管在客户端选择方面已经做了大量工作，但目前还没有达成普遍首选方法的共识。每种讨论的方法都展示了相对于朴素随机客户端选择的改进。然而，目前缺乏对这些方法在不同FL设置中应用的综合和比较研究。此外，公平性和安全性仍然是客户端选择中的重要考虑因素。虽然系统异质性在作品中考虑了客户端设备之间的性能和延迟变化，但与每个设备相关的安全性和隐私水平尚未得到充分考虑。忽视这些方面可能会使FL系统容易受到客户端侧攻击。许多讨论的方法是服务器中心的，这可能会引入集中式漏洞。因此，探索去中心化FL方法至关重要，这些方法通过分散决策和减少单点故障的风险，提供增强的安全性和鲁棒性。这些将在第5.2节中讨论。

减少网络负担

如前所述，使用小型ML模型而不是大规模模型是减少网络负担的自然解决方案，这些负担由size(→S,⋅) 和size(S→,⋅) 表示。然而，有限能力的小型模型难以处理复杂任务，通常表现不佳。因此，模型压缩是一个更好的解决方案，其关键思想是在不影响最终性能的情况下，将大规模模型的参数压缩成更小的尺寸。在本小节中，我们调查了FL中模型压缩的文献，并依次讨论了以下四个主要方法组，即量化、稀疏化、因式分解和联邦蒸馏。

4.3.1 量化

量化是通过将位宽从浮点数（如32位fp32）表示为较低精度（如fp16、int32、int16、int8）来减少模型尺寸的方法，同时保持模型性能。一般来说，FL场景中的量化方法在交换的模型参数上应用量化器，以减少表示位，从而减少FL系统中的通信开销。首先，Reisizadeh等人[79]通过在客户端提交的“伪梯度”上应用称为QSGD[5]的随机量化器来修改FedOpt，建立了FedPAQ，如算法4.2所示。简单来说，FedPAQ可以被视为带有量化方案的FedOpt。此外，根据QSGD的量化级别s，FedPAQ在减少通信开销和牺牲模型性能之间存在权衡。随后，Haddadpour等人[31]通过调整服务器学习率增强了FedPAQ的理论保证。与FedPAQ在客户端之间固定量化级别s不同，Chen等人[16]考虑了不同的计算资源，并支持不同的客户端量化级别。然后，FedHQ被提出通过最小化收敛上界为客户端分配不同的聚合权重。此外，Jhunjhunwala等人[46]提出了一种自适应方法AdaQuantFL，该方法考虑了误差和通信比特之间的权衡，允许客户端在FL过程中调整量化级别。更具体地说，AdaQuantFL将整个训练过程离散化为均匀的通信间隔，在每个间隔内确定最优的ss，以最小化训练误差上界。我们可以观察到，上述所有方法都量化了客户端提交的信息，并假设服务器完美分发全局模型。然而，如果全局模型在分发给客户端之前也进行编码，总通信开销可以进一步减少。基于这一动机，Amiri等人[7]引入了有损FL，其中QSGD在交换之前量化本地信息和全局信息。尽管随机量化器如QSGD在为每个向量坐标分配有限可能性集时是高效和方便的，但它们对向量分布和向量中最大和最小条目之间的差距很敏感。因此，许多研究集中在使用其他量化器上。例如，Suresh等人[93]通过在量化之前应用结构化随机旋转来设计一种确定性量化方法。也就是说，客户端和服务器根据已知分布绘制旋转矩阵，客户端然后发送旋转向量的量化，而服务器对估计的旋转向量应用逆旋转。基于这种方法，Vargaftik等人[97]引入了DRIVE，通过随机旋转可以将原始向量量化为1位量化级别。此外，Shlezinger等人[87]提出了一种基于通用量化[117]概念的方案，称为FL的通用向量量化，UVeQFed。具体来说，UVeQFed基于坚实的信息理论论据实现了基于减法抖动格的量化。这种方案在速率失真理论规定的可实现的最准确有限比特表示内接近，并且与先前工作中使用的随机量化方法相比，实现了更准确的量化表示。

4.3.2 稀疏化

稀疏化是通过在每轮生成和交换原始大规模模型的小部分来减少模型尺寸的方法。除了通过生成合适的小部分来减少通信开销外，这种方法还对客户端分配资源自适应计算有益。在这个方向上，参数丢弃和子模型提取是生成非结构化和结构化客户端模型的两种主要方法。

Bouacida等人[12]提出并研究了自适应联邦Dropout，它基于训练误差维护一个激活分数图，以确定应选择哪些激活进行传输或丢弃。每个分数图将实数值分配给所有激活，表示它们在训练过程中的重要性和影响。此外，Liao等人[61]在模型中加入了额外的层，即SyncDrop层，以确定要保留或丢弃的通道轨迹，从而根据客户端的本地数据分布自动适应模型。同时，Chen等人[15]发现许多参数在模型收敛前很久就变得稳定，然后这些参数达到其最优值后，后续更新只是无实质变化的振荡，可以安全地排除而不损害模型性能。基于此，提出了另一种自适应方法，通过自适应冻结和解冻参数来减少通信量，同时保持收敛。在这种方法下，每个稳定的参数在识别后冻结一定轮数，然后解冻以检查是否需要进一步训练，冻结期的长度根据该参数恢复更新后是否仍然稳定而递增或递减。尽管减少了通信开销，这些方法直接操作单个模型参数，对扩展努力和模型性能产生负面影响[20]。受此启发，Chen等人[18]将模型划分为语义块，评估块重要性而不是确定单个参数重要性，并机会性地丢弃不重要的块，从而在保持模型性能的同时实现更大的通信开销减少。结果方法FedOBD将深度神经网络的基本构建块视为语义块，并使用一种新的块差异度量来确定块重要性。最后，全局模型以类似于联邦Dropout的方式进行聚合。由于其块级方法，FedOBD在训练大规模模型时更高效。

子模型提取。与对等组中的方法利用类似Dropout的技术从原始完整模型生成非结构化的小型模型不同，该组中的方法提取和分配结构化子模型给客户端，保留整个模型的架构优势。首先，Diao等人[22]和Horvath等人[38]分别提出了奠基方法HeteroFL和FjORD。具体来说，HeteroFL和FjORD根据客户端的容量从全局模型中选择一定数量的固定核来创建子模型。这意味着客户端模型在层宽上更窄且不同，但仍在其架构上结构化。在全局模型聚合期间，服务器使用类似于联邦Dropout的机制聚合核，并成功恢复完整模型。值得注意的是，在上述提取方案下，根据其资源需求，不同的子模型只能在设备资源匹配的客户端上进行训练。因此，全局模型的一部分无法在低端客户端的数据上进行训练，导致其不同部分在不同分布的数据上进行训练，称为未训练的全局模型问题。这会降低模型性能，特别是在非IID数据场景下。针对解决这一问题，Hong等人[37]提出了Split-Mix，通过将全局模型拆分为普遍预算兼容的子模型并重新混合来增加可访问的训练数据。在Split-Mix下，客户端训练所有可负担的子模型，然后根据推理需求按需集成。此外，Alam等人[4]提出了FedRolex，使用一种创新的滚动提取方案更高效地解决上述问题。具体来说，子模型使用滚动窗口从全局模型中提取，窗口在每轮通信中前进。由于窗口是滚动的，不同轮次中从全局模型不同部分提取子模型。结果，所有全局模型参数均匀地基于客户端的本地数据进行训练。尽管展示了有希望的效率，基于宽度的拆分方案往往导致非常窄的客户端模型，这可能会显著丢失基本特征，导致模型质量大幅下降[94]。此外，这些方案在聚合中存在通道参数不匹配的问题，导致性能低于简单排除弱客户端进行训练。基于这些见解，Kim等人[52]提出了一种基于深度拆分的方法DepthFL，以解决这些问题。具体来说，DepthFL通过修剪全局模型的最深层并根据客户端的资源分配给客户端来定义不同深度的客户端模型。值得注意的是，DepthFL通过各种深度的分类器之间的相互自我蒸馏来缓解未训练深层的问题。最近，Ilhan等人[41]通过利用早期退出在宽度和深度维度上自适应缩小全局模型，为资源自适应本地训练找到最佳适应模型。新方法ScaleFL的缩小过程受到EfficientNet[94]的启发，该研究表明在缩放深度神经网络时平衡不同维度大小的重要性。接下来，ScaleFL在本地模型训练期间在早期退出和最终预测之间进行自我蒸馏，以改善子模型之间的知识转移，并提供有效的聚合。

4.3.3 因式分解

μkt初始化为零，其稀疏性由稀疏正则化器的超参数控制，因此可以在训练期间逐渐捕捉额外的表达能力。Factorized-FL与先前方法的另一个关键区别是它考虑了非IID数据场景在因式分解矩阵的聚合中。除了从头开始训练低秩矩阵外，Qiao等人[75]提出了FedDLR，在客户端完成本地训练后进行低秩因式分解，然后将各自的低秩矩阵上传到服务器。然后，服务器将接收到的矩阵聚合为全局模型，并对聚合模型进行另一次因式分解以分发给客户端。具体来说，FedDLR通过截断奇异值分解[82]明确地对模型参数进行因式分解，这是一种常见的后训练压缩技术。通过采用双侧因式分解，FedDLR在整个训练过程中的通信开销是单调递减的。然而，这给客户端和服务器增加了额外的计算工作量。

4.3.4 联邦蒸馏

数据集需要仔细考虑，因此缺乏通用性。因此，Lin等人[62]提出了FedDF，将KD从客户端转移到服务器，通过客户端模型输出的集成蒸馏方式在未标记的公共数据集上训练全局模型。FedDF消除了客户端的额外推理工作，并且对公共数据集的选择具有鲁棒性。随后，Sattler等人[84]提出了FedAUX，FedDF的扩展，在相同的假设下，通过从对比逻辑评分中推导每个客户端模型输出的确定性，并使用这种确定性来确定聚合权重，从而显著提高了性能，从而在数据区分度高的情况下产生更鲁棒的经验性能。类似地，Li等人[60]构建了一个自适应聚合步骤，称为pFedSD，通过利用两轮中交换模型输出之间的Jensen-Shannon散度来动态修改每个客户端的聚合权重。尽管展示了有希望的结果，这些基于数据的方法并不总是实用，因为它们依赖于标记或未标记的公共数据集，这在极端情况下可能不可用。因此，Zhu等人[127]引入了一种数据无关的方法，其中服务器学习一个轻量级生成器来集成客户端知识，然后将该生成器分发给客户端，使用学习到的知识作为归纳偏置来规范本地训练。具体来说，引入的方法FedGEN学习了一个生成模型，该模型仅从客户端模型的预测规则中导出，给定目标标签，可以生成与预测集成一致的特征表示。然后，该生成器被分发给客户端，在潜在空间上生成增强样本，这些样本体现了从其他对等客户端蒸馏的知识，从而规范本地训练。在FedGEN发布后，一些其他最近的工作集中在提高生成器的性能上。例如，Zhang等人[122]首先生成伪数据来训练生成器，然后利用硬样本同时训练全局模型。此外，设计了定制的标签采样和标签级集成算法，以提高蒸馏过程的收敛性。除了上述利用模型输出的知识的方法外，还需要在服务器上进行蒸馏过程，利用特征表示是一种新兴的方法。Tan等人[96]提出了FedProto，聚合从客户端收集的抽象类原型，然后将全局原型发送回所有客户端，以规范本地模型的训练。每个客户端的训练旨在最小化本地数据的分类误差，同时保持结果本地原型与相应的全局原型足够接近。之后，Tan等人[95]设计了FedPCL，在本地训练期间进行对比学习，允许客户端从本地和全局原型中共享更多类相关的知识。尽管优于FedProto，FedPCL由于客户端间共享本地原型而引入了更大的通信开销。

讨论。在本小节中，我们讨论了减少网络负担的最先进解决方案。量化、稀疏化、因式分解和联邦蒸馏是文献中广泛探索的四种主要方法。然而，每种方法都有其局限性。一般来说，所有四种方法都牺牲了模型容量以实现通信效率，从而降低了模型性能。更具体地说，量化方法依赖于先进的量化器，因此在客户端上创建了额外的内存占用和计算瓶颈，稀疏化和因式分解方法可能过于复杂，无法应用于高级ML模型。相比之下，联邦蒸馏方法通常要求服务器执行更多的计算，而不仅仅是聚合全局模型。值得注意的是，通过抽象类原型而不是模型参数或模型输出来共享知识的新兴方法有很大的潜力进一步发展，因为它没有面临这些问题。这些讨论的问题为未来在减少网络负担方面的研究提供了许多挑战和机会。

5 通信高效的FL架构

在前几节中，讨论了FL的集中式方法。然而，对中央节点的依赖带来了潜在问题，如延迟、系统范围的单点故障风险和中央FL服务器的可信度问题（Liu等人，2022）。去中心化联邦学习（DFL）由He等人（He等人，2018）于2018年引入，涉及相邻节点之间的去中心化模型聚合，最小化了集中式架构的依赖。本节将讨论两种主要的DFL架构类别：分层FL和点对点FL。

分层FL

Liu等人提出了一种边缘云分层框架，称为HierFAVG（Liu等人，2022），以解决FL中的通信资源瓶颈。HierFAVG具有三层架构——客户端、边缘服务器和云服务器。边缘服务器聚合其本地客户端的模型，然后云服务器聚合来自边缘服务器的模型。客户端根据其本地数据执行本地更新。在每个客户端执行每k1k1次本地更新后，客户端通过边缘聚合细化其本地模型参数，其中每个边缘服务器聚合其连接客户端的模型。这种边缘级别的部分聚合有助于在同一边缘服务器内的多个客户端之间整合信息。在每k2k2次边缘聚合后，云服务器聚合所有边缘服务器的模型。云级别的聚合结合了不同边缘服务器部分聚合的模型，实现了更高级别的信息聚合。该方法通过更便宜的通信到边缘服务器，提供了集中式FL的通信优势，同时通过模型聚合表现优于分布式学习。

点对点FL

与分层FL相比，点对点FL中的客户端直接通信。DFedAvgM（DfedAvg，2017）将集中式FedAvg算法扩展到去中心化设置，其中客户端通过无向图连接，并与邻居通信，而不是中央或边缘服务器。在DFedAvgM中，每个客户端执行多次带有动量的本地SGD迭代，然后将更新后的参数发送给其邻居，这由与混合矩阵相关的通信图确定。然后，客户端通过接收到的邻居参数的加权平均来更新其本地参数。为了进一步减少客户端之间的通信成本，论文还提出了一种量化版本的DFedAvgM，其中每个客户端向其邻居发送量化的参数更新，从而减少了客户端之间需要通信的信息量。通过量化模型更新，客户端之间传输的数据量减少，这在客户端通信的邻居数量增加时特别有益。这种通过量化的有效通信有助于缓解客户端间通信造成的瓶颈，提高了算法的整体效率。本质上，量化DFedAvgM通过在分布式训练中传输量化的模型更新来优化通信，从而减少了交换的数据量并提高了去中心化FL过程的整体效率。

HL-SGD[30]利用点对点和设备到服务器的通信来加速学习。设备被分组为不相交的集群，这些集群可以高效地相互通信。第一种选择是基于设备位置或网络拓扑的自然分组，其中物理上靠近或属于同一局域网（LAN）域的设备可以分组到同一集群中，因为它们将具有高带宽的点对点连接。第二种选择是基于地理位置的分组，其中移动设备可以根据其地理位置分组到集群中，使得同一集群中的设备彼此靠近并可以高效通信。我们还可以考虑随机分组，如果没有自然的方式来分组设备，只要集群内的设备具有良好的点对点连接，允许它们在HL-SGD算法的本地更新和平均步骤中高效地交换信息。在每轮中，设备首先在其集群内执行本地SGD更新。然后，从每个集群中抽取一部分设备，将其模型上传到中央服务器。关键思想是利用集群内快速的点对点通信来执行高效的本地模型更新，同时仅选择性地将部分本地模型发送到服务器，以减少与标准FL方法相比的整体通信成本。这种混合模型聚合方案，使用廉价的点对点通信和不太频繁的集中聚合，旨在在模型准确性和训练时间之间取得平衡。

6 未来方向和讨论

FL系统面临一个重大挑战，由于网络条件和设备能力的可变性，导致通信效率低下。设备运行的网络环境可能会有很大差异，影响数据传输的速度和可靠性。因素如带宽限制、延迟、丢包和网络拥塞可能导致FL设置中的通信低效。此外，参与FL的设备可能具有不同的硬件规格，包括处理能力、内存容量和电池寿命的差异。这些差异会影响通信协议的效率和处理大型模型更新的能力。本节将介绍从实际角度研究FL通信效率的潜在未来方向，并讨论通信效率对现实世界FL部署的影响。

未来方向

在本调查中，我们确定了几个有前景的未来方向（如图5.2所示），这些方向可以进一步推进提高FL通信效率的目标，同时解决现有挑战以实现现实世界的开发。

混合通信策略：探索结合集中式和去中心化方法优势的混合通信策略。例如，可以开发分层FL架构[63, 13]，其中本地更新首先在较小的设备集群内聚合，然后再发送到中央服务器。这减少了网络负担，同时允许全局模型更新。然而，管理分层FL架构需要复杂的协调机制，以确保来自较小集群的本地更新与中央服务器正确聚合和同步[112]。这种额外的复杂性可能会引入延迟和潜在瓶颈。因此，这一方向需要仔细平衡设计选择、强大的协调协议和高级算法，以确保使用混合通信策略实现高效可靠的FL实现。
动态客户端参与和任务分配：开发基于设备能力、数据相关性和网络条件的动态客户端参与和任务分配算法和框架。这种自适应方法可以通过在每轮通信中动态调整参与客户端集和分配给它们的任务来优化通信效率[118]。这些算法和框架必须动态评估和排名客户端，这可能计算量大且需要实时数据。
联邦迁移学习（FTL）：扩展FL以支持迁移学习范式，其中从一个任务或领域学到的知识被转移到另一个相关的任务或领域[83]。这减少了通过利用预训练模型或从其他设备转移的知识进行广泛通信的需求，特别是在数据可用性或通信资源有限的情况下。预训练模型可能具有不同的神经网络架构，直接组合它们具有挑战性。需要模型手术技术，涉及对模型架构的仔细手术操作，以确保兼容性并实现异构架构之间的知识转移。
通信高效的模型架构：设计专门为FL设置量身定制的通信高效模型架构[72]。这包括开发轻量级模型架构、参数共享技术和模型蒸馏方法，这些方法减少了通过网络传输的更新大小，同时保持模型性能。减少模型更新大小同时保持或提高模型性能是一个重大挑战。轻量级架构必须仔细设计，以确保它们不会牺牲模型的准确性或鲁棒性。
边缘云协作：探索有效利用边缘和云资源的协作FL框架。边缘设备可以执行本地模型更新，并与云服务器协作进行全局模型聚合，从而最小化通信开销和延迟。这需要边缘和云组件之间的高效同步和协调机制。
隐私保护通信技术：研究新的隐私保护通信技术，如安全多方计算（SMC）[27]和同态加密[114]，以在模型聚合和更新传输期间保护数据隐私。这些技术使FL系统能够在不暴露原始数据的情况下安全地聚合更新，从而在保持隐私的同时提高通信效率。然而，SMC和同态加密都是计算密集型的。因此，研究可以集中在优化同态加密方案上，以减少计算和通信开销。这可能涉及开发更高效的加密算法或实施部分同态加密，专门用于FL中使用的特定操作。
标准化和基准测试：不同应用可能优先考虑通信效率的不同方面，如延迟、带宽使用或能耗。一个有前途的方向是建立标准化基准和评估指标，用于评估不同场景和应用中FL算法的通信效率。这促进了现有方法的公平比较和基准测试，并鼓励开发提高通信效率的新技术。

讨论

通信效率对现实世界FL部署的影响是显著且多方面的。它影响FL系统的性能、可扩展性和实际可行性。例如，通信效率直接影响模型更新在中央服务器和参与设备之间传输的延迟。通信效率的提高导致延迟减少，从而实现更快的模型收敛和更响应的FL系统。此外，高效的通信策略最小化FL训练轮次期间通过网络传输的数据量。减少带宽需求对于容纳具有有限网络带宽或物联网边缘设备有限数据计划的FL大规模部署至关重要。

通信效率对于将FL系统扩展到大量参与设备或客户端至关重要。高效的通信协议和算法确保系统能够处理增加的设备数量，而不会使网络或中央服务器不堪重负。在资源受限的环境中，如移动设备或边缘计算平台，高效的通信减少了FL训练期间的能耗。节能的FL部署可以延长设备电池寿命，并通过最小化数据传输量和通信轮次频率来降低运营成本。在现实世界的FL部署中，必须应对可变的网络条件，包括带宽、延迟和可靠性波动。通信效率措施，如自适应调度和错误处理机制，有助于在不同网络条件下保持系统性能和可靠性。

高效的通信协议在FL部署中保护数据隐私和安全方面至关重要。通过最小化敏感数据的传输并利用隐私保护技术，如联邦平均或安全聚合，通信效率有助于在协作模型训练的同时保护用户隐私。优化通信效率减少了与FL部署相关的基础设施和运营成本。通过最小化数据传输成本和网络开销，组织可以以成本效益的方式部署FL系统，并获得更好的投资回报。

跨学科合作对于从通信角度解决实际FL部署的多方面挑战至关重要。这种合作可以促进开发将通信高效技术与隐私保护机制、分布式架构、边缘计算策略和特定领域要求相结合的整体解决方案。例如，通信网络和协议方面的专业知识对于开发高效、可扩展和可靠的FL系统通信策略至关重要。与分布式系统、并行计算和去中心化架构专家合作，对于设计可扩展和容错的FL系统至关重要。机器学习专家需要开发有效的模型压缩、量化和聚合技术，专门用于通信效率。此外，与来自各种应用领域（如医疗保健、金融、物联网）的领域专家合作，对于理解这些领域中独特的通信要求、约束和隐私问题至关重要。

7 结论

FL通过在不集中数据的情况下促进多个去中心化参与者或设备的协作训练，代表了机器学习领域的一种变革性方法。这种范式转变在优先考虑数据隐私的领域尤其有利。尽管具有潜力，FL的实际部署在很大程度上受到通信开销的挑战，这是阻碍其在现实世界应用中可扩展性和效率的主要瓶颈。由于现有文献中没有关于FL实用性的全面调查，本调查提供了对FL在现实世界应用中实施的深入讨论，重点是通信方面。我们首先定义了通信成本，以总通信时间和交换数据量来衡量。然后，我们研究了提高通信效率的策略，如减少通信轮数、最小化参与客户端数量以及采用量化、稀疏化、因式分解和联邦蒸馏等模型压缩技术。随后，我们介绍了通信高效的联邦学习（FL）方法，并讨论了旨在缓解通信挑战的各种FL架构。最后，我们强调了研究挑战，并提出了未来方向，以实现实际部署。

总之，解决通信瓶颈对于在实际环境中实现FL的全部潜力至关重要。通过开发通信高效的方法和探索通信效率的未来方向，FL可以有效扩展并部署在需要隐私保护、去中心化机器学习的各种领域。本综合调查强调了通信效率的重要性，并建议未来研究和开发以克服当前限制并增强FL的实际适用性。