AUCTION: Automated and Quality-Aware Client Selection Framework for Efficient Federated Learning

♚伱說呢

已于 2023-11-13 18:32:07 修改

阅读量104

点赞数 1

文章标签：论文笔记论文阅读

于 2023-11-07 13:31:52 首次发布

本文链接：https://blog.csdn.net/qq_52601548/article/details/134183418

版权

【真实数据集】

背景

联邦学习（FL）的出现使分布式数据所有者能够在不共享原始数据的情况下协作构建全局模型，这为建立数据市场创造了新的商机。

在实际的FL场景中，参与者客户端的硬件条件和数据资源可能会有很大的不同，导致不同的积极的或消极的FL性能的影响，其中客户端选择问题变得至关重要。

面临挑战

FL仍然面临着技术挑战，以实现令人满意的学习质量。特别是，与具有不受约束的资源和足够数据的数据中心的训练不同，参与FL的分布式设备通常在硬件条件和数据资源方面是资源受限的和异构的，这可能会显著影响学习性能。

例如，由于传感器缺陷和环境约束，在移动的设备处经常收集错误标记的和非独立同分布（非IID）的数据，从而导致不同的局部学习质量。然而，包容性地聚合低质量的模型更新会恶化全局模型质量，这已经被我们的现场实验所验证。

（Non-IID的意思即数据之间非独立，或者非同分布。但现实数据一般都是独立的。数据与数据之间都是独立的，但不满足同一个分布。）

因此，客户端选择，即，从候选客户端中选择适当的移动的设备来参与分布式学习对于高质量的联合学习变得至关重要。

如何去做

为此，我们提出了AUCTION，这是一个用于高效FL的自动化和质量意识客户选择框架，它可以评估客户的学习质量，并在有限的预算内自动选择具有质量意识的客户。

在设计AUCTION时，应该适当平衡数据大小、数据质量和学习预算等影响学习性能的多个因素。这是不平凡的，因为它们对FL模型的影响是复杂和不可量化的。

因此，拍卖被设计为将客户端选择策略编码到神经网络中，并采用强化学习来基于观察到的客户端状态和由联邦学习性能量化的反馈奖励自动学习客户端选择策略。特别地，策略网络建立在具有注意力机制的编码器-解码器深度神经网络上，该深度神经网络可以适应候选客户端数量的动态变化，并进行顺序的客户端选择动作，以显著减少学习空间。

主要贡献

通过试点实验，我们揭示了个人数据质量对FL模型准确性的重要性，由此我们研究了FL服务的质量感知客户端选择问题，以处理分布式客户端的缺陷数据问题。这个问题在实际的FL场景中是至关重要的，但据我们所知，在文献中很少见到。
我们提出了拍卖，基于RL的客户端选择框架，自动学习高效和质量意识的客户端选择策略。在拍卖中，我们设计了一个基于Encoder-Decoder架构的策略网络，它可以适应FL客户端数量的动态变化，并做出顺序的客户端选择决策，以显着减少RL搜索空间。
我们实施了拍卖，并进行了广泛的数据驱动的实验，以评估其性能。与最先进的客户选择方法相比，拍卖可以显着提高不同的学习任务在不同的FL设置的FL性能。

FL系统的架构和工作流程

1、任务初始化。向FL平台提交学习任务，并且有有限的预算B可用于招募客户基于其本地训练结果来更新全局学习模型的参数w。

2、客户端初始化。愿意参与该任务的客户端集合C，即候选客户端，报告其客户端信息和价格，这些信息和价格将用于下一步的客户端选择。

3、客户选择。FL平台进行客户端选择，从候选客户端中选择参与者的子集，然后将初始全局模型 $eq?w%5E%7B0%7D$ 传递给所选择的参与客户端。

4、本地培训。在每一轮r中，基于全局模型 $eq?w%5E%7Br%7D$ ，每个参与客户端使用局部数据集 $eq?D_%7Bi%7D$ 来单独进行模型训练，其训练结果可用于更新局部模型参数 $eq?w_%7Bi%7D%5E%7Br%7D$ 。局部训练过程是最小化训练数据集Di上的局部损失函数，局部损失函数为

将局部参数 $eq?w_%7Bi%7D%5E%7Br%7D$ 初始化为 $eq?w%5E%7Br%7D$ 的值，然后使用局部损失函数 $eq?F_%7Bi%7D%28w_%7Bi%7D%5E%7Br%7D%29$ 的梯度下降更新规则逐渐更新。在局部训练之后，每个参与者的更新的局部模型参数 $eq?w_%7Bi%7D%5E%7Br%7D$ 被上传到FL平台用于全局模型聚合。

5、全局聚合，FL平台使用经典的联合平均算法聚合从参与客户端接收的本地模型参数，其中 $eq?d_i%3D%7CD_i%7C$ 是参与客户端 $eq?C_i$ 用于本地训练的数据样本的数量。然后，更新后的全局模型参数 $eq?w%5E%7Br+1%7D$ 被发送回所有参与者以进行下一轮迭代（进行到步骤4）

6、学习完成。当全局模型的测试精度达到目标学习精度时，FL过程结束。

数据驱动分析与观察

数据大小的影响

为了探索数据大小对全局模型的影响，本文改变了每个客户端用于训练的数据量，并评估了单个客户端模型和全局模型的测试准确性。

图2a显示了5个epoch后10个客户端的单个模型的平均测试准确度，图2b显示了30轮联合学习后全局模型的测试准确度。可以观察到参与客户端的数据大小可以显著影响个体模型和全局模型的学习精度，因为这两个图都具有明显的准确率随数据大小增加而增加的趋势。

（一个epoch , 表示：所有的数据送入网络中，完成了一次前向计算+反向传播的过程。）

数据质量的影响

为了研究数据质量对全局模型的影响，我们改变了客户端数据样本的错误标记率和非IID水平，并评估了个体模型和全局模型的测试准确性。

图3a显示了5个epoch后不同错误标记率下的单个客户端模型的平均测试准确度，我们可以观察到错误标记的数据样本会显著降低个体学习性能，特别是当错误标记率变大时。同样，图3b显示了30轮联合学习后全局模型的测试准确性，其中我们改变了10个参与客户端中70%错误标记数据的客户端数量。可以很容易地看出，全局学习性能也随着错误标记的数据样本而下降。

图4a显示了不同非IID水平下各个客户端模型的平均测试准确度，其中我们将训练数据大小固定为600，并改变客户端数据集中数据标签类的数量。我们可以观察到，倾斜的数据分布可以显著降低学习性能。从图4 b也可以实现相同的观察，其中我们在10个参与客户端中改变具有一个标签类数据的客户端的数量。

因此，我们可以得出结论，参与客户端的数据质量对FL性能有显著影响，选择具有高质量（正确标记且均匀分布）数据样本的客户端以减少不良数据集的副作用至关重要。

不可量化的因素的印象

随着不同的数据大小和错误标记率，图5和图6分别显示了平均个体学习精度和全局学习精度，我们可以得到两个重要的观察结果。

对于每个学习模型，数据大小/质量与最终达到的模型精度之间的关系似乎是不可量化的。对于每一列或行，变化是不均匀的，并且变化模式与列/行完全不同。
对于不同的学习模式，这些因素的影响也各不相同。例如，与MNIST和FMNIST的学习模型相比，CIFAR-10对数据大小和数据质量更敏感，因为当数据大小变小或存在错误标记的数据样本时，个体和全局学习精度都会急剧下降。

因此，很难在数学上创建一个单一的模型来表示不同学习任务的因素影响，且候选客户端无法进行定量评估，故这种无法量化的属性在设计高质量的客户端选择算法方面带来了技术挑战

AUCTION的设计

我们采用RL架构通过与环境交互来训练客户端选择代理。如下图所示，AUCTION首先从FL服务市场收集客户的状态信息，然后代理对环境采取客户选择动作。然后，选定的客户端协同训练FL模型，并将训练性能作为奖励返回给代理。最后，AUCTION使用此奖励来更新代理策略以提高其性能。该过程迭代地运行，直到代理可以根据动态环境做出令人满意的客户端选择决策。

为了提高客户端选择代理的智能，我们设计了一个神经网络，即策略网络，作为客户端选择代理，它采取FL客户端的状态作为输入，并输出一个客户端选择动作。状态捕获给定FL任务的候选客户端的状态，包括数据质量、数据大小和索赔价格，而动作确定选择哪些客户端参与任务。为了科普候选客户端数量的动态变化并减少RL算法的搜索空间，策略网络被设计为编码器-解码器结构，其中编码器将每个客户端的状态映射到矢量表示，基于该矢量表示，解码器然后相应地生成所选客户端的输出。

强化学习模型

RL模型的组件包括状态、动作、奖励和策略

1）状态，由给定学习任务的所有候选客户端的特征组成。我们将每个客户端Ci的特征设置为 $x_i$ ={ $d_i$ , $d_{i}^{l}$ , $d_{i}^{d}$ , $b_{i}$ }，其中 $d_i$ 是用于训练的数据样本的数量， $d_{i}^{l}$ 和 $d_{i}^{d}$ 分别是数据标签和数据分布方面的数据质量，并且 $b_{i}$ 是所需价格（即，支付）以供客户端Ci完成学习任务。

在本文中，我们提出了一个简单而有效的方法来表征每个客户端的数据质量。FL平台通常维护一小部分测试数据以评估FL模型的质量。因此，为了表征每个客户端的数据标签质量，FL平台首先使用测试数据集训练全局模型，然后使用训练的全局模型来评估每个客户端数据集中的数据样本的损失。虽然训练的模型不足以预测客户端数据样本的正确标签，但我们发现错误标签率和测试损失之间存在很强的相关性。可作为上述特征中的 $d_{i}^{l}$ 。

为了表征客户端数据分布的偏斜度，每个候选客户端首先使用适合本地数据的小子集独立地训练从FL平台下载的初始全局模型，然后将本地模型提交到FL平台进行评估。验证了FL平台测试数据集上各局部模型的损失与客户端数据分布的偏度密切相关，偏度越大的数据分布反映的损失值越大。可作为上述特征中的 $d_{i}^{d}$ 。

2）动作：给定具有大小N的候选客户端集合C，客户端选择代理需要选择客户端的子集而不超过预算B。但是客户端的选择组合空间可能有O( $2^{N}$ )，大的组合动作空间可能使RL训练过程显得复杂化。我们采用顺序动作来逐个做出客户选择决策。对于从最多N个候选客户端中选择一个客户端的每个顺序动作，动作空间可以减少到O(N)，并且这样的动作的序列可以完成客户端选择过程。

3）奖励：客户端选择策略的目标是通过对所选客户端的协同训练，使全局模型快速收敛到准确可靠的程度。奖励函数r如下，其中R是整个FL过程的总轮数， $acc^{j}$ 是全局模型在第j轮之后在FL平台的测试数据集上实现的测试准确度， $\lambda$ 是使奖励r随测试准确度增长的常数。

4）政策：AUCTION的策略网络定义了一个随机的客户选择策略，用于在给定状态s和学习预算B的情况下选择一个可行的行动a。也就是说，策略网络将任何状态和学习预算作为输入，并输出可行的客户端选择动作。

策略网络

编码器网络

在编码器网络中，客户端嵌入层首先通过线性投影将4维输入特征 $x_{i}$ 转换为初始 $d_{h}$ 维，经由线性投影嵌入

遵循Transformer 的编码器架构，每个注意层由多头注意（MHA）层和全连接前馈（FF）层组成，每个层都添加了跳过连接和批量归一化（BN）

MHA层由并行运行的M个关注头组成，并且基于每个头 $h_{im}^{a}$ 的输出来计算每个客户端Ci的MHA值

其中 $W_{m}^{O}$ 是可学习的参数矩阵。具体地说，给定一个客户端嵌入h i，h im的值由自注意机制计算

其中 $W_{e}^{Q}$ 、 $W_{e}^{K}$ 和 $W_{e}^{V}$ 是可学习的参数矩阵，通过投影相同的嵌入h i来计算每个客户端Ci的查询q i、键k i和值v i，并且dk是查询/键向量的维度。

前馈（FF）值通过ReLu激活的两个线性变换计算

解码器网络

基于来自编码器的嵌入，解码器在时间t输出一个选择的客户端，并且可以实现顺序的客户端选择结果，直到学习预算用完。对于解码器架构，它由多头注意层和单头注意层组成，通过多头注意机制来计算多头注意层的值 $d^{(0)}$ 。具体地，取编码器的输出，即，最后的客户端嵌入 $h_{i}^{(L)}$ 作为输入，解码器首先计算聚合嵌入

为了确保选定的客户不会重复，并且所需的付款不会超过学习预算，我们在时间t为每个客户定义注意力掩码{0，1} ，让 $a_{t-1}$ =（ $a_{1}$ , $a_{2}$ ,..., $a_{t-1}$ ）表示在t-1时间被选择的客户端， $B_{t-1}$ 表示剩余预算。

然后，我们计算权重，并屏蔽在时间t不能被选择的客户端

最后，可以使用公式(6)根据每个头部的输出值来计算多头关注值

为了计算在时间t选择客户端Ci的概率pt i，多头注意层之后是具有单个注意头的注意层。

然后，我们为每个客户端计算权重，并将结果裁剪在区间[-C,C] 内，使用tanh

在时间t选择客户端Ci的概率，可以使用softmax来计算。

最后，解码器根据概率在时间t选择一个参与客户端

策略网络训练

策略网络的参数 $\theta$ 是编码器和解码器可学习参数的级联。训练的目标是优化具有状态s的客户端的给定输入集合的随机策略，即，将较大的概率分配给具有高学习性能的客户端选择策略。对于给定的学习任务，客户端选择代理首先观察FL服务市场环境的状态s，即，每个候选客户端Ci的特征。可以以隐私保护的方式获取数据质量特征，同时，数据大小特征在分布式模型训练期间可用，并且每个客户端的价格特征对于FL平台也是公共的。

然后，客户端选择代理基于策略策略来选择动作序列a。在每一轮中，每个选择的客户端Ci利用di个本地数据样本训练全局模型，并将模型更新提交给FL平台用于聚合。全局模型用聚合的模型更新迭代地更新，并且训练过程在一定数量的轮之后终止。随后，代理评估全局模型并获得奖励r。

然后，根据策略网络的状态、动作和奖励条件对策略网络进行更新，训练目标是最大化期望奖励

r（a|s）是在状态s执行动作a之后的奖励。采用REINFORCE算法来优化J，其参数通过梯度下降逐渐优化，其中 b（s）表示独立于a的基线函数，以减小梯度方差，从而加速训练过程：

首先，我们随机生成一个训练集S，其中每个样本s j 2SS代表FL服务市场的一个状态，s j中候选客户的特征是从均匀分布中随机生成的。该算法以训练集S、训练epoch数E、批量大小Bs和学习预算B为输入，在E次epoch后输出策略网络的更新参数。在每个epoch中，算法从S中抽取一批Bs样本，对于每个样本s j，代理首先从策略中抽取样本以获得可行的动作 $a_{j}$ ，然后贪心地选择一个动作 $a_{j}^{b}$ ，那之后FL服务市场执行这两个动作，并分别计算这两个动作的回报。最后，该算法计算梯度，并使用ADAM优化器更新策略网络的参数 $\theta$ 。

评估

将AUCTION的性能与以下四种基准客户选择方法进行比较：

贪心：它基于qi/bi的值来贪婪地选择具有高质量和低价格的客户，其中qi和bi分别是客户Ci的质量和价格。在这里，我们利用启发式方法来表征每个客户端的质量，即 $q_{i}$ = $d_{i}$ * $acc_{i}$ ，其中di是训练数据大小， $acc_{i}$ 是每个客户端Ci的预训练局部模型的测试准确度（每个客户端使用局部数据的小子集来训练全局模型，该全局模型被提交给FL平台用于评估）。在最近的研究中，基于贪婪的方法被广泛用于质量感知的预算激励机制。

POW-D：它更喜欢具有较大局部损失的客户端。在每一轮中，FL平台将当前全局模型发送到候选客户端，候选客户端计算并发送回其本地损失，然后FL平台在学习预算内按照本地损失值的顺序选择客户端。

随机：它随机选择学习预算B内的客户端子集，这广泛用于最先进的研究。

价格第一：它优先考虑价格低的客户端进行给定的学习任务，其目的是在有限的预算内选择尽可能多的客户端。

图9显示了客户端选择代理在四个FL任务上的训练过程，其中候选客户端的数量固定为50，每个任务的学习预算B设置为10。我们可以观察到，对于每个学习任务，训练奖励可以在训练几百个小批之后快速收敛到稳定且高的值。研究表明，通过拍卖的设计，代理人可以学习如何智能地制定最优的客户选择策略。

图10示出了通过采用不同的客户端选择策略的每个学习任务的准确性。我们可以观察到，对于所有的学习任务，我们提出的AUCTION可以显着优于其他基准。

图11示出了具有50个候选客户端的每个任务的学习性能。我们可以观察到，AUCTION在大规模客户端场景中仍然运行良好，显著优于其他基准测试。

为了更好地理解Auction如何选择客户端以超越其他方案，以LeNet-5 FMNIST任务为例，我们绘制了图12中Auction和贪婪的客户端选择结果。

AUCTION和GREADY选择的客户的特征如表1所示。

我们可以观察到，AUCTION和GREADY选择了9个客户参与学习任务，准确率为77：1%3，而GREADY选择了11个参与客户，但反过来获得了71：4%的分数。此外，贪婪选择的客户的平均数据量大于拍卖，平均价格低于拍卖，但选择的客户的平均KLD值相对较大。这意味着贪婪机制优先考虑数据量大、价格低的客户，而拍卖机制则更注重数据质量，从而获得更好的性能。贪婪机制可能会错误地选择数据量大、价格低、但数据分布相对倾斜的客户端。然而，非IID数据会显著降低FL的性能，导致贪婪机制的性能次优。相比之下，Auction可以智能地学习如何在数据大小、数据质量和价格之间进行权衡，通过RL培训选择合适的客户。

为了公平地比较AUCTION和POW-D的客户端选择方案，我们将每个客户端的价格设置为2，然后在图13中绘制他们的客户端选择结果，并在表2中总结他们选择的客户端的特征。

我们可以观察到，AUCTION对训练数据量大、错误标记数据少、KLD值小的客户端更有偏好，而POW-D对训练数据量大、错误标记率高的客户端更有偏好。原因在于较大的训练数据量和较高的错误标记率会导致较大的局部损失，而POW-D更喜欢局部损失较大的客户端。然而，错误标记和偏斜的数据会显著降低FL性能。

预算

图14示出了当存在不同学习预算时LeNet-5 FMNIST任务的性能。

我们提出的拍卖可以在所有设置优于其他基准。例如，当学习预算为5时，经过30轮，AUCTION可以达到81%的准确率，但对于其他基准测试，所达到的值小于70%。此外，AUCTION比其他基准测试收敛得更快，因为它需要更少的轮次才能达到相同的目标模型精度，能够保存大量的训练成本和学习预算。其次，当学习预算较小时，AUCTION与其他基准之间的性能差距变得更加显著。这是因为基准测试的性能可以随着学习预算的增加而提高，而AUCTION即使在相对较小的预算下也可以始终保持相对较高的性能。